Google hat gemeinsam mit Forschenden von Georgia Tech und dem Wild Dolphin Project (WDP) Fortschritte bei DolphinGemma vorgestellt. Das Grundlagenmodell wurde darauf trainiert, die Struktur von Delfinvokalisationen zu lernen und neue delfinähnliche Lautsequenzen zu erzeugen. Es basiert auf einem Datensatz aus der Langzeitforschung des WDP zu wilden Atlantischen Fleckendelfinen (Stenella frontalis) auf den Bahamas.
WDP untersucht diese Delfingemeinschaft seit 1985 in einem nicht-invasiven Forschungsansatz unter Wasser. Dabei entstanden über Jahrzehnte Audio- und Videodaten, die mit individuellen Tieren, Lebensverläufen und beobachteten Verhaltensweisen verknüpft wurden. Das Projekt hat Lauttypen mit Verhaltenskontexten korreliert, darunter Signature Whistles zur Wiederfindung von Mutter und Kalb, Burst-Pulse-"Squawks" bei Konflikten und Click-"Buzzes" etwa bei Balz oder beim Verfolgen von Haien. Diese langfristige Beobachtung liefert den Kontext für die KI-Analyse.
DolphinGemma nutzt den SoundStream-Tokenizer zur kompakten Repräsentation von Delfinlauten und verarbeitet diese mit einer auf komplexe Sequenzen ausgelegten Modellarchitektur. Das Modell hat nach Angaben von Google rund 400 Millionen Parameter und ist so dimensioniert, dass es direkt auf den Pixel-Smartphones des WDP im Feldeinsatz laufen kann. Es knüpft an Gemma an, Googles Familie leichter offener Modelle, und wurde mit der akustischen Datenbank des WDP trainiert.
Das System arbeitet als Audio-in-/Audio-out-Modell. Es verarbeitet Sequenzen natürlicher Delfinlaute, um Muster und Struktur zu erkennen und den wahrscheinlich folgenden Laut in einer Sequenz vorherzusagen, ähnlich zur Vorhersage des nächsten Worts oder Tokens bei Sprachmodellen für menschliche Sprache. WDP beginnt in der aktuellen Feldsaison mit dem Einsatz des Modells. Laut Google kann es helfen, wiederkehrende Muster, Cluster und verlässliche Sequenzen zu identifizieren, was bislang einen hohen manuellen Aufwand erforderte. Später könnten solche Muster mit von Forschenden erzeugten synthetischen Lauten kombiniert werden, die sich auf Objekte beziehen, mit denen Delfine gern spielen, um einen geteilten Wortschatz für interaktive Kommunikation aufzubauen.
Parallel dazu verfolgt WDP mit Georgia Tech einen separaten Ansatz für mögliche Zwei-Wege-Interaktion im Ozean: das System CHAT (Cetacean Hearing Augmentation Telemetry). CHAT soll nicht die natürliche komplexe Kommunikation der Delfine direkt entschlüsseln, sondern ein einfacheres gemeinsames Vokabular aufbauen. Dafür werden neuartige synthetische Whistles, die sich von natürlichen Delfinlauten unterscheiden, mit bestimmten Objekten wie Sargassum, Seegras oder von Forschenden verwendeten Tüchern verknüpft. Die Hoffnung ist, dass Delfine diese Whistles nachahmen, um entsprechende Objekte anzufordern.
Damit dies funktioniert, muss CHAT Nachahmungen trotz Umgebungsgeräuschen erfassen, den imitierten Whistle in Echtzeit identifizieren, die Forschenden über unter Wasser nutzbare Bone-Conducting-Kopfhörer informieren und eine schnelle Reaktion mit dem passenden Objekt ermöglichen. Ein Google Pixel 6 übernahm dabei die hochauflösende Echtzeitanalyse von Delfinlauten. Die nächste Generation des Systems, deren Forschung für Sommer 2025 geplant ist und die auf einem Google Pixel 9 basiert, soll Lautsprecher- und Mikrofonfunktionen integrieren und zugleich Deep-Learning-Modelle sowie Template-Matching-Algorithmen auf dem Gerät ausführen.
Google zufolge verringert der Einsatz von Pixel-Smartphones den Bedarf an spezialisierter Hardware, verbessert die Wartbarkeit und senkt Stromverbrauch, Kosten und Größe des Systems. Die Vorhersagefähigkeiten von DolphinGemma könnten zudem helfen, potenzielle Nachahmungen früher innerhalb einer Lautsequenz zu erkennen und damit schnellere Reaktionen im Zusammenspiel mit CHAT zu ermöglichen.
Google plant, DolphinGemma im Sommer als offenes Modell mit der Forschungsgemeinschaft zu teilen. Das Modell wurde zwar mit Lauten Atlantischer Fleckendelfine trainiert, könnte laut Google aber auch für die Forschung an anderen Cetacean-Arten wie Bottlenose- oder Spinner-Delfinen nützlich sein. Für andere Vokalisationen kann Fine-Tuning erforderlich sein.
