News & Trends

Googles Lyra: Neuer Codec ermöglicht gute Sprachqualität mit 3 Kbit/s

Martin Jud
3.3.2021

Google stellt mit Lyra einen Sprach-Codec vor, der gute Qualität bei extrem geringem Datenverbrauch bringt. Genauer schafft es Lyra selbst mit nur 3 Kbit/s eine Stimme klar, verständlich und natürlich klingen zu lassen.

Wäre Lyra, Googles neuer Sprach-Codec, gemeinsam mit dem Video Codec AV1 bereits Ende der 1990er aufgetaucht, hätte ein 56k-Modem für heitere Videotelefonie mit Hunz und Kunz gereicht. Das bedeutet nicht, dass Lyra heute nutzlos ist. Im Gegenteil: Da längst nicht alle Menschen auf dieser Welt mit Schweizer Internet-Geschwindigkeiten gesegnet sind, wird Lyra einiges verändern.

Technisch gesehen können, um die Qualität von Video Calls und Sprachanrufen zu verbessern, stärkere Backhaul und neue Funktechnologien helfen. Oder neue Sprach-Codecs, die selbst bei minimalen Datenraten von nur drei Kilobit pro Sekunde noch immer eine klare und keinesfalls nach Roboter klingende Stimme liefern. Googles neuer Codec Lyra kann genau das – er kann zur Entlastung von Netzwerken beitragen.

Bei Lyra handelt es sich nicht um eine Wellenform-Komprimierung wie bei Codecs, die bei Musik eingesetzt werden. Allerdings könnte Lyra dennoch eines Tages dazu im Stande sein, auch anderes als Sprache zu übertragen. Denn Google ist gewillt, daran zu forschen, wie sich die vorliegende neue Technologie zu einem Allzweck-Audiocodec mit niedriger Bitrate wandeln könnte.

So funktioniert Lyra: Sprache mit minimalen Datenmengen rekonstruieren

Wie kann Google gute Sprachqualität bei so geringer Datenrate garantieren? Die Antwort ist, wie so oft in der Techbranche, eine altbekannte Allzweckwaffe: KI.

Im Wesentlichen wird die künstliche Intelligenz mit aus Open-Source-Audiobibliotheken stammenden Daten aus über 70 verschiedenen Sprachen gefüttert. Die Sprachsamples dienen der KI als Grundlage und werden auf verschiedene Modelle angewandt, welche zu neuen Methoden der Komprimierung führen oder führen können. Kurzum haben tausende Trainingsstunden die Realisierung von Lyra ermöglicht. An dieser Stelle sei angemerkt, dass Google das Rad nicht neu erfinden musste. Die angewandten Methoden basieren auf generativen Modellen, die etwa bereits bei WaveNet von DeepMind zur Anwendung kommen.

Kurz: Google verwendet traditionelle Codec-Techniken und erweitert diese mit neuen Methoden des maschinellen Lernens.

Die Google-Mitarbeitenden Alejandro Luebs (Software Engineer) und Jamieson Brettle (Product Manager von Chrome) schreiben dazu weiter:

«Die grundlegende Architektur des Lyra-Codecs ist recht einfach. Alle 40 Millisekunden werden charakteristische Sprachmerkmale extrahiert und dann für die Übertragung komprimiert. Bei den Merkmalen handelt es sich um Log-Mel-Spektrogramme, eine Liste von Zahlen, die die Sprache in verschiedenen Frequenzbändern repräsentiert. Sie werden traditionell wegen ihrer Wahrnehmungsrelevanz verwendet und sind der menschlichen Hörreaktion nachempfunden. Am anderen Ende verwendet ein generatives Modell diese Merkmale, um das Sprachsignal nachzubilden. In diesem Sinne ist Lyra anderen traditionellen parametrischen Codecs, wie MELP, sehr ähnlich.»

Damit Lyra en- und decodiert werden kann, benötigt es übrigens nicht zwingend einen Cloud Server. Ein aktuelles Mittelklasse-Smartphone soll genügend Leistung bringen, damit der Sprach-Codec in Echtzeit On-Device läuft. Bei der Verarbeitung der Daten soll dabei eine Latenz von ca. 90 Millisekunden vorliegen – was auch im Rahmen anderer Sprach-Codecs liegt.

So gut klingt Lyra im Vergleich

Lyra ist nicht der erste Codec, welcher bei geringen Datenraten eine gute Qualität bietet. Google weist zum Vergleich auf den gegenwärtig bei WebRTC-basierten VOIP-Applikationen am meisten verbreiteten Codec Opus hin. Der Open-Source-Codec schafft es, eine nicht vom Original zu unterscheidende Audioqualität bei 32 Kbit/s zu liefern. Mit seiner geringst möglichen Bitrate von 6 Kbit/s zeigt er beim Probehören allerdings eine schlechtere Qualität als Lyra mit 3 Kbit/s. Andere existierende Codecs – wie MELP, AMR oder Speex – können zwar auch mit nur 3 Kbit/s streamen, klingen aber auch wesentlich schlechter und bieten mehr Artefakte oder gar Roboterstimmen.

Wer gerne Probehören möchte, wie Lyra klingt, kann dies im Google AI Blog tun.

39 Personen gefällt dieser Artikel


User Avatar
User Avatar

Der tägliche Kuss der Muse lässt meine Kreativität spriessen. Werde ich mal nicht geküsst, so versuche ich mich mittels Träumen neu zu inspirieren. Denn wer träumt, verschläft nie sein Leben.

11 Kommentare

Avatar
later