Freitag, 19. November 2010

Tag 4: 15:10 - 16:10 : Hadoop, HBase, and Hive in Production

Früher war der "Feind" Microsoft. Dann hat Google diese Position eingenommen. In letzter Zeit bemüht sich Facebook intensiv im diesen Titel. Mit Erfolg, wie die regelmäßigen Pressemitteilungen über dieses Unternehmen verdeutlichen. ;-)

Diese Session ist von Facebook. Ich bin also für eine Stunde in der Höhle des Löwen und höre mir an, wie die Datenkrake hinter der "Gefällt mir"-Fassade funktioniert.

500 Millionen aktive Nutzer monatlich wollen technisch verwaltet werden. Die damit verbundene Datenmenge übersteigen ein wenig jenes Datenvolumen, mit dem wir in unseren Projekten arbeiten müssen.


Andere Anforderungen an das Mengengerüst verlangen nach anderen Lösungen für den Umgang damit. Klassische Datenbanken mit klassischen Abfragesprachen helfen hier nach Aussage des Vortragenden wenig.

Massive Parallelisierung gepaart mit einem modifizierten Datenspeicherung und entsprechender Datenabfrage-"Sprache" beschreiben abstrakt den gewählten Lösungsansatz. Konkret setzt Facebook dabei auf folgende Werkzeuge:
  • Aggregation von RDBMS-Knoten über Scribe
  • Verteilte Datenspeicherung über Apache Hadoop
  • Verteilte Dateiverwaltung über das Hadoop Distributed File System HDFS
  • Datensuche und -verarbeitung über Hadoop MapReduce
  • DataWarehousing auf Basis von Apache Hive
Für uns ergibt sich der Einsatz (noch) nicht. Ein Blick über den Tellerrand und das Wissen um andere Konzepte rund um Datenhaltung und -verarbeitung machten diesen Vortrag aber wertvoll.

Keine Kommentare:

Kommentar veröffentlichen