DataSift jongliert auf der LeWeb mit Big Data

Screen Shot 2013-06-05 at 14.45.14Bei dem Unternehmen DataSift (Live MitschnittGitHub, Trial verfügbar) handelt es sich um einen (der wohl größten) reinen Aggregationsdienst welcher auf momentan aus knapp 20 Resourcen Daten einsammelt und diese strukturiert in der eigenen API nahezu in Echtzeit ausliefert. Darüber hinaus hat man auch Zugriff auf den Datenstrom in der Historie, doch der Augenmerk liegt gerade daran die Informationsflug innerhalb von Millisekunden abzufangen und zu Bündeln, was sicherlich eine Meisterleistung ist. Das System dazu stammt aus Eigenentwicklung, welche nach Angaben von Toby Potter (Twitter) auf Basis von Java und C++ geschrieben ist. Es arbeitet extrem schnell unter gezielter Verwendung eines großen Speichers, ähnlich einer RAM des Computers. Über eine bereitgestellte API kann man dann auf die Daten zugreifen. Dabei ist zu beachten, dass die Inhalte selbst nicht verarbeitet werden. Sprich es wird nicht versucht die Person X welche auf Twitter eine Nachricht hinterlässt mit der eventuellen gleichen Person auf Facebook zu verbinden.

Da heißt, die Firma liefert ausschließlich die Daten Roh und nur mit den bereits vorhandenen Eigenschaften aus der ursprünglichen Quelle aus. Das heißt Meta-, Headline-, Kommentare- und reiner Text ist entsprechend gekennzeichnet. Daraufhin wird die Reichweite anhand einiger Faktoren gemessen, zum Beispiel wie oft der Inhalt geteilt wurde oder wie häufig der gleiche Link oder Inhalt in unterschiedlichen Nachrichten auftaucht. Wikistats.co (von DataSift, via) zeigt dies zum Beispiel anhand des Datenstroms von Wikipedia, oder direkt von der LeWeb 2013.

Screen Shot 2013-06-05 at 14.45.23Simples Beispiel: Die Firma BluePlay welche ausschließliche blaue Schallplattenverkauft macht dies ausschließlich an eine geschlossene Gruppe, welche aus ausgewählter Musik Fans und Produzenten besteht. Dabei stellt das Unternehmen fest, dass die Community stetig wächst und sie die meisten Aufmerksamkeit im Social Media Kanal Google+ und Youtube sammeln kann. Daraufhin lässt BluePlay gezielt subtiles Marketing für die entsprechenden Kanäle zu produzieren. Außerdem bemerken Sie, dass eine beständige kleine Gruppe an Fans gerne grüne Schallplatten kaufen würde. Nach einem halben Jahr nutzt BluePlay das aus um eine limitierte Auflage an grünen Schallplatten zu produzieren, was einen kurzfristigen höheren Verkaufsumsatz ausmacht.

Andere Firmen (oder wie in diesem Fall eine Tochterfirma) wie Pulsar TRAC oder Facegroup nehmen sich dann der Darstellung und sinnvolle Verdrahtung der Daten an, um diese nutzbar zu machen. Sprich die Marketingabteilung kann dann ernsthaft mit der Auswertung der Rohdaten etwas anfangen. Denn es besteht mit eine große Herausforderung aus statistischen oder einer Menge an Auswertungen sinnvolle Schlüsse zu ziehen. Hier braucht es Experten und eine entsprechende Aufbereitung. Wenn dies zusammen Harmoniert und auf Korrektheit getestet ist, kann dies eine Firma in eine wesentliche bessere Position im Vergleich zur Konkurrenz versetzen.

Eine schöne Veranschaulichung zur Aufbereitung der Rohdaten zum Thema Gangnam Style und Harlem Shake ist auf dem Blog von DataSift zu finden. Ein anderes Beispiel zeigt einen Vergleich verschiedener Brands. Kin Lange stellt DataShift als eine Vorzeige-Firma für “offenen Zugang” dar.

Leave a Reply

Your email address will not be published. Required fields are marked *