Login
Newsletter
Werbung

Do, 18. Oktober 2018, 15:00

Hello World!? Sprachsynthese und Spracherkennung mit freier Software

Texte ausgeben mit MaryTTS und Sprache erkennen mit DeepSpeech - mit diesen Programmen ist es sehr leicht, ein grundlegendes Verständnis für das Thema zu gewinnen.

Von jstaerk

Machine Learning ist eine komplexe Sache, jetzt wird Google TensorFlow mit DeepSpeech salonfähig. Ein sprecherunabhängiges Modell muss zwar grundsätzlich noch selbst erstellt werden, Mozilla liefert aber zum Testen ein Beispielmodell mit. Wir nutzen eine Open-Source-Sprachsynthese des Deutschen Forschungszentrums für Künstliche Intelligenz als Eingang für die Open-Source-Spracherkennung von Mozilla. Die Resultate schreien noch nach Anpassungen in Synthese und Erkennung, der Grundstein scheint aber gelegt.

Sprechen

Weboberfläche von MaryTTS beim ersten Start

Jochen Staerk

Weboberfläche von MaryTTS beim ersten Start

Um eine Programmiersprache zu erlernen, schreibt man als einfachst mögliches Programm gern erstmal nur eine simple Ausgabe auf dem Bildschirm – traditionell »Hello world«.

Da wir keine Programmiersprache erlernen, sondern bestehende Open-Source-Programme einsetzen wollen, können wir es uns leisten, die Sache etwas komplizierter zu machen: Hello world soll nicht geschrieben, sondern durch ein erstes Programm gesprochen – und durch ein zweites verstanden werden.

Zur Open-Source-Sprachsynthese bedienen wir uns des Mary Text-to-Speech Systems (MaryTTS). Dazu installieren wir Java, beispielsweise auf einem Ubuntu 18.4 mit

sudo apt-get install openjdk-11-jdk 

und laden die »runtime package« von mary.dfki.de/download herunter.

Installation von Sprachen und Stimmen in MaryTTS

Jochen Staerk

Installation von Sprachen und Stimmen in MaryTTS

Entpacken (unzip marytts-5.2.zip) und Starten des Servers (marytts-5.2/bin/marrytts-server) erlaubt uns, mit einem Browser auf die Oberfläche per localhost:59125 zuzugreifen.

Gibt man »Hello World« als Input Text ein und klickt auf den Knopf speak, erhält man jetzt schon einen gesprochenen Text. Allerdings ist die Stimme »cmu-slt-hsmm en_US female hmm« noch etwas holprig. Die deutschen Stimmen klingen besser und es gibt Anleitungen, selbst Stimmen anzulernen. Das ist aber enorm aufwändig, zunächst installieren wir uns ein paar Stimmen nach.

Dazu beenden wir den Server (CTRL+C) und starten statt dessen

marytts-5.2/bin/marytts-component-installer 

Installation von dfki-prudence in MaryTTS

Jochen Staerk

Installation von dfki-prudence in MaryTTS

Weboberfläche von MaryTTS mit neu installierter Stimme

Jochen Staerk

Weboberfläche von MaryTTS mit neu installierter Stimme

Dieser bietet beispielsweise acht britische und sechs US-amerikanische sowie neun deutsche Stimmen, die jeweils ca. 100 bis 300 MB Download auf die Waage bringen. Hier installieren wir uns die britische Stimme dfki-prudence, beenden den component-installer und starten wieder den Server.

Auf der Sprachseite kann man die Stimme jetzt auswählen. Benutzen Sie den Downloadlink, um eine entsprechende Wav-Datei mit einem gesprochenen »Hello World« zu speichern.

Pro-Linux
Traut euch!
Neue Nachrichten
Werbung