Mozilla gibt DeepSpeech 0.6 frei

Funktion steht nur registrierten Nutzern zur Verfügung!

Newsletter

Funktion steht nur registrierten Nutzern zur Verfügung!

Lesezeichen hinzufügen

Fr, 6. Dezember 2019, 11:45

Software::Multimedia

Mozilla gibt DeepSpeech 0.6 frei

Mozillas automatische Spracherkennungs-Engine DeepSpeech hat in der letzten Zeit zahlreiche Verbesserungen erfahren und kommt mit einem bereits trainierten englischen Modell.

Von Hans-Joachim Baader

Mozilla

Mit den Projekten Common Voice und Deep Speech will Mozilla den den Markt dominierenden proprietären Spracherkennungssystemen freien Code und freie Daten entgegensetzen. Die Projekte wurden aktuell Gegenstand einer Zusammenarbeit mit dem deutschen Bundesministerium für wirtschaftliche Zusammenarbeit und Entwicklung (BMZ), die Sprachbeispiele von Sprachen aus Afrika und Asien sammelt und zu neuen srpachunterstützten Anwendungen in den entsprechenden Regionen führen soll.

DeepSpeech ist eine Engine zur Spracherkennung, die auf künstlicher Intelligenz beruht. Sie hat nach Angaben von Mozilla eine Erkennungsrate, die derjenigen von Menschen nahekommt. Ihre Wortfehlerrate soll beim LibriSpeech Test-Clean-Datensatz lediglich 6,5 Prozent betragen. Die jetzt freigegebene Version 0.6 bringt zahlreiche Verbesserungen mit sich. Die Geschwindigkeit wurde laut Mozilla optimiert, so dass eine Echtzeit-Spracherkennung nur noch moderate Hardware-Anforderungen stellt. Bereits ein Kern eines Raspberry Pi 4 ist schnell genug für Echtzeit. Die größten Verbesserungen wurden beim Dekoder erzielt, der nun eine konstant niedrige Latenz und niedrigen Speicherbedarf aufweist. Dies ist unabhängig von der Menge der zu erkennenden Audiodaten.

Neben dem Dekoder ist das akustische Modell die zweite wesentliche Komponente von DeepSpeech. Sie arbeitet mit einem tiefen neuronalen Netz, das die Audiodaten als Eingabe erhält und Zeichenwahrscheinlichkeiten ausgibt. Eingesetzt wird hier TensorFlow. Mit der neuen Version kann DeepSpeech auch TensorFlow Lite verwenden, das für den Einsatz in mobilen und eingebetteten Systemen optimiert ist. Statt 98 MB umfasst dieses Paket nur 3,7 MB. Das englische Sprachmodell reduziert sich damit von 188 MB auf 47 MB. Startzeit und Speicherbedarf von DeepSpeech sinken damit dramatisch. Durch die Verwendung der neuesten Version von TensorFlow wurden außerdem die Trainingszeiten halbiert.

Mit im Lieferumfang ist ein vortrainiertes englisches Modell, das auf Basis von 3816 Stunden transkribierter Audiodateien erstellt wurde. Das Modell wurde allerdings mit amerikanischem Englisch trainiert und versteht andere Varianten und Dialekte schlechter. Andere Sprachen muss man dem System selbst beibringen. Dazu kann man die Daten des Projekts Common Voice nutzen, zu dem alle Interessierten weitere Daten beitragen können.

DeepSpeech 0.6 kommt ferner mit Schnittstellen zu den Programmiersprachen Python, JavaScript, Go, Java und .NET. Binärpakete stehen für sechs Plattformen zum Download bereit.