Tag Archives: pulsar trac

DataSift jongliert auf der LeWeb mit Big Data

Screen Shot 2013-06-05 at 14.45.14Bei dem Unternehmen DataSift (Live MitschnittGitHub, Trial verfügbar) handelt es sich um einen (der wohl größten) reinen Aggregationsdienst welcher auf momentan aus knapp 20 Resourcen Daten einsammelt und diese strukturiert in der eigenen API nahezu in Echtzeit ausliefert. Darüber hinaus hat man auch Zugriff auf den Datenstrom in der Historie, doch der Augenmerk liegt gerade daran die Informationsflug innerhalb von Millisekunden abzufangen und zu Bündeln, was sicherlich eine Meisterleistung ist. Das System dazu stammt aus Eigenentwicklung, welche nach Angaben von Toby Potter (Twitter) auf Basis von Java und C++ geschrieben ist. Es arbeitet extrem schnell unter gezielter Verwendung eines großen Speichers, ähnlich einer RAM des Computers. Über eine bereitgestellte API kann man dann auf die Daten zugreifen. Dabei ist zu beachten, dass die Inhalte selbst nicht verarbeitet werden. Sprich es wird nicht versucht die Person X welche auf Twitter eine Nachricht hinterlässt mit der eventuellen gleichen Person auf Facebook zu verbinden.

Da heißt, die Firma liefert ausschließlich die Daten Roh und nur mit den bereits vorhandenen Eigenschaften aus der ursprünglichen Quelle aus. Das heißt Meta-, Headline-, Kommentare- und reiner Text ist entsprechend gekennzeichnet. Daraufhin wird die Reichweite anhand einiger Faktoren gemessen, zum Beispiel wie oft der Inhalt geteilt wurde oder wie häufig der gleiche Link oder Inhalt in unterschiedlichen Nachrichten auftaucht. Wikistats.co (von DataSift, via) zeigt dies zum Beispiel anhand des Datenstroms von Wikipedia, oder direkt von der LeWeb 2013. Continue reading