Hello World!? Sprachsynthese und Spracherkennung mit freier Software
Texte ausgeben mit MaryTTS und Sprache erkennen mit DeepSpeech - mit diesen Programmen ist es sehr leicht, ein grundlegendes Verständnis für das Thema zu gewinnen.
Machine Learning ist eine komplexe Sache, jetzt wird Google TensorFlow mit DeepSpeech salonfähig. Ein sprecherunabhängiges Modell muss zwar grundsätzlich noch selbst erstellt werden, Mozilla liefert aber zum Testen ein Beispielmodell mit. Wir nutzen eine Open-Source-Sprachsynthese des Deutschen Forschungszentrums für Künstliche Intelligenz als Eingang für die Open-Source-Spracherkennung von Mozilla. Die Resultate schreien noch nach Anpassungen in Synthese und Erkennung, der Grundstein scheint aber gelegt.
Sprechen
Um eine Programmiersprache zu erlernen, schreibt man als einfachst mögliches Programm gern erstmal nur eine simple Ausgabe auf dem Bildschirm – traditionell »Hello world«.
Da wir keine Programmiersprache erlernen, sondern bestehende Open-Source-Programme einsetzen wollen, können wir es uns leisten, die Sache etwas komplizierter zu machen: Hello world soll nicht geschrieben, sondern durch ein erstes Programm gesprochen – und durch ein zweites verstanden werden.
Zur Open-Source-Sprachsynthese bedienen wir uns des Mary Text-to-Speech Systems (MaryTTS). Dazu installieren wir Java, beispielsweise auf einem Ubuntu 18.4 mit
sudo apt-get install openjdk-11-jdk
und laden die »runtime package« von mary.dfki.de/download herunter.
Entpacken (unzip marytts-5.2.zip
) und Starten des Servers (marytts-5.2/bin/marrytts-server
) erlaubt uns, mit einem Browser auf die Oberfläche per localhost:59125 zuzugreifen.
Gibt man »Hello World« als Input Text ein und klickt auf den Knopf
, erhält man jetzt schon einen gesprochenen Text. Allerdings ist die Stimme »cmu-slt-hsmm en_US female hmm« noch etwas holprig. Die deutschen Stimmen klingen besser und es gibt Anleitungen, selbst Stimmen anzulernen. Das ist aber enorm aufwändig, zunächst installieren wir uns ein paar Stimmen nach.Dazu beenden wir den Server (CTRL+C) und starten statt dessen
marytts-5.2/bin/marytts-component-installer
Dieser bietet beispielsweise acht britische und sechs US-amerikanische sowie neun deutsche Stimmen, die jeweils ca. 100 bis 300 MB Download auf die Waage bringen. Hier installieren wir uns die britische Stimme dfki-prudence, beenden den component-installer und starten wieder den Server.
Auf der Sprachseite kann man die Stimme jetzt auswählen. Benutzen Sie den Downloadlink, um eine entsprechende Wav-Datei mit einem gesprochenen »Hello World« zu speichern.