Diese Session ist von Facebook. Ich bin also für eine Stunde in der Höhle des Löwen und höre mir an, wie die Datenkrake hinter der "Gefällt mir"-Fassade funktioniert.
500 Millionen aktive Nutzer monatlich wollen technisch verwaltet werden. Die damit verbundene Datenmenge übersteigen ein wenig jenes Datenvolumen, mit dem wir in unseren Projekten arbeiten müssen.
Andere Anforderungen an das Mengengerüst verlangen nach anderen Lösungen für den Umgang damit. Klassische Datenbanken mit klassischen Abfragesprachen helfen hier nach Aussage des Vortragenden wenig.
Massive Parallelisierung gepaart mit einem modifizierten Datenspeicherung und entsprechender Datenabfrage-"Sprache" beschreiben abstrakt den gewählten Lösungsansatz. Konkret setzt Facebook dabei auf folgende Werkzeuge:
- Aggregation von RDBMS-Knoten über Scribe
- Verteilte Datenspeicherung über Apache Hadoop
- Verteilte Dateiverwaltung über das Hadoop Distributed File System HDFS
- Datensuche und -verarbeitung über Hadoop MapReduce
- DataWarehousing auf Basis von Apache Hive
Keine Kommentare:
Kommentar veröffentlichen