Apache Kafka – Echtzeit-Datenströme in wertvolle Einblicke verwandeln

Apache Kafka ist eine Open-Source-Software der Apache Software Foundation, die insbesondere zur Verarbeitung von Datenströmen dient. Kafka ist dazu entwickelt, Datenströme zu speichern und zu verarbeiten, und stellt eine Schnittstelle zum Laden und Exportieren von Datenströmen zu Drittsystemen bereit. Die Kernarchitektur bildet ein verteiltes Transaktions-Log.

Apache Kafka ist die Entwicklung von LinkedIn. Seit 2012 ist es Teil der Apache Software Foundation. Im Jahr 2014 gründeten die Entwickler das Unternehmen Confluent aus LinkedIn heraus, welches die Weiterentwicklung von Apache Kafka fokussiert. Apache Kafka ist ein verteiltes System, das skalierbar und fehlertolerant und somit für Big-Data-Anwendungen geeignet ist.

Wie funktioniert Apache Kafka?

Den Kern des Systems bildet ein Rechnerverbund (Cluster), bestehend aus sogenannten Brokern. Broker speichern Schlüssel-Wert-Nachrichten zusammen mit einem Zeitstempel in Topics. Topics wiederum sind in Partitionen aufgeteilt, die im Kafka-Cluster verteilt und repliziert sind. Innerhalb einer Partition werden die Nachrichten in der Reihenfolge gespeichert, in der sie geschrieben wurden. Lese- und Schreibzugriffe umgehen den Arbeitsspeicher durch die direkte Anbindung der Festplatten mit dem Netzwerkadapter (Zero Copy), so dass weniger Kopiervorgänge vor dem Schreiben oder Versenden von Nachrichten nötig sind.

Was ist Zero Copy im Kontext Apache Kafka?

Zero Copy „Null-Kopie“ beschreibt Computeroperationen, bei denen die CPU keine Daten von einem Speicherbereich in einen anderen kopiert oder bei denen unnötige Datenkopien vermieden werden. Dies wird häufig verwendet, um CPU-Zyklen und Speicherbandbreite bei vielen zeitaufwändigen Aufgaben zu sparen. Beispielsweise bei der Übertragung einer Datei mit hoher Geschwindigkeit über ein Netzwerk, wodurch die Leistung von Programmen (Prozessen), die von einem Computer ausgeführt werden, verbessert wird.

Anwendungen, die Daten in einen Kafka-Cluster schreiben, werden als Producer bezeichnet, Anwendungen, die Daten von dort lesen, als Consumer. Zur Datenstromverarbeitung besteht die Möglichkeit, Kafka Streams zu verwenden. Kafka Streams ist eine Java-Bibliothek, die Daten aus Kafka liest, verarbeitet und die Ergebnisse nach Kafka zurückschreibt. Auch die Verwendung mit anderen Stream-Verarbeitungssystemen ist möglich. Ab der Version 0.11.0.0 ist „„transaktionales Schreiben“ auch möglich, dadurch ist garantiert, dass die Verarbeitung von Nachrichten exakt ein einziges Mal stattfindet, wenn eine Anwendung Kafka Streams verwendet. Stichwort (Exactly-Once processing) – Wobei dies ein Thema für sich darstellt und den Rahmen hier sprengen würde.

Kafka unterstützt zwei Arten von Topics: „normal“ und „compacted“ Topics. Normale Topics garantieren, Nachrichten für einen konfigurierbaren Zeitraum vorzuhalten oder einen gewissen Speicherbedarf nicht zu überschreiten. Liegen Nachrichten vor, die älter sind als die konfigurierte „retention time“, oder ist das Speicherlimit einer Partition überschritten, kann Kafka alte Nachrichten löschen, um Festplattenspeicher freizugeben. Standardmäßig speichert Kafka Nachrichten für 7 Tage, aber es ist auch möglich, Nachrichten für immer zu speichern. Neben „normal“ Topics bietet Kafka auch „compacted“ Topics an, die keiner Zeit- oder Platzlimitierung unterliegen. Stattdessen werden neuere Nachrichten als Aktualisierung („updates“) alter Nachrichten mit dem gleichen Schlüssel interpretiert. Dadurch ist garantiert, dass keine Löschung der neuesten Nachricht pro Schlüssel stattfindet. Nutzer können Nachrichten jedoch explizit löschen, indem sie eine Spezialnachricht (sog. tombstone) mit null-Wert für den entsprechenden Schlüssel schreiben.

Apache Kafka bietet vier Hauptschnittstellen an:

  • Producer API
    Für Anwendungen, die Daten in einen Kafka-Cluster schreiben wollen. 
  • Consumer API
    Für Anwendungen, die Daten aus einem Kafka-Cluster lesen wollen.
  • Connect API
    Import/Export-Schnittstelle zur Anbindung von Drittsystemen und baut auf der Consumer- und der Producer-API auf. Kafka Connect führt sogenannte Konnektoren („connectors“) aus, welche die eigentliche Kommunikation mit dem Drittsystem übernehmen. Dabei definiert die Connect-API die Programmierschnittstellen, die von einem Connector implementiert werden müssen. Es gibt bereits viele frei verfügbare und kommerzielle Konnektoren, die genutzt werden können. Apache Kafka liefert selbst keine produktreifen Konnektoren.
  • Streams API
    Java-Bibliothek zur Datenstromverarbeitung. Die Bibliothek ermöglicht es, zustandsbehaftete Datenstromverarbeitungsprogramme zu entwickeln, die sowohl skalierbar, flexibel als auch fehlertolerant sind. Dafür bietet Kafka Streams eine eigene domänenspezifische Sprache (DSL) an, die Operatoren zum Filtern, Abbilden (Mappen) oder Gruppieren enthält. Des Weiteren werden Zeitfenster, Joins, und Tabellen unterstützt. Ergänzend zur domänenspezifischen Sprache ist es auch möglich, eigene Operatoren in der Processor-API zu implementieren. Diese Operatoren können auch in der domänenspezifischen Sprache genutzt werden. Zur Unterstützung zustandsbehafteter Operatoren wird RocksDB verwendet. Dies erlaubt es, Operatorzustände lokal vorzuhalten und Zustände, die größer als der verfügbare Hauptspeicher sind, als RocksDB-Daten auf die Festplatte auszulagern. Um den Anwendungszustand verlustsicher zu speichern, werden alle Zustandsänderungen zusätzlich in einem Kafka-Topic protokolliert. Im Falle eines Ausfalls können alle Zustandsübergänge aus dem Topic ausgelesen werden, um den Zustand wiederherzustellen.

Die Consumer- und Producer-Schnittstellen basieren auf dem Kafka-Nachrichtenprotokoll und können als Referenzimplementierung in Java angesehen werden. Das eigentliche Kafka-Nachrichtenprotokoll ist ein binäres Protokoll und erlaubt es damit, Consumer- und Producer-Clients in jeder beliebigen Programmiersprache zu entwickeln. Damit ist Kafka nicht an das JVM-Ökosystem gebunden.

Fazit

Apache Kafka bietet als Plattform ein redundantes und skalierbares Event-Streaming. Es funktioniert sowohl auf einem einzelnen Server als auch in riesigen Clustern mit multiplen Brokern. Die Datenquellen und Senken werden in Kafka als Producer und Consumer bezeichnet, die Events in Topics schreiben oder aus Topics lesen. Zusätzlich können verschiedene Systeme über Kafka Connect angebunden werden. Eine Echtzeitdatenverarbeitung auf Stream Basis ist über das Kafka-Streams-Framework möglich. Durch Consumer Groups kann man auch die Anwendungen, die ihre Daten aus Kafka beziehen, verteilt ausgeführen, ohne dass die Verarbeitung eines Events mehrfach stattfindet.

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.