Login
Login-Name Passwort


 
Newsletter
Werbung

Mo, 31. Dezember 2012, 09:04

Software

Spracherkennung Simon 0.4 erkennt Kontexte und Gesichter

Der Simon-Chefentwickler Peter Grasch hat nach mehr als zweijähriger Entwicklung die Version 0.4 der freien Spracherkennung Simon angekündigt. Das KDE-Projekt Simon soll Tastatur und Maus ersetzen und so auch körperbehinderten Personen und Senioren die komfortable Nutzung des PCs und anderer rechnergestützter Systeme ermöglichen.

Bei Simon 0.4 handelt es sich um die erste stabile Version, seit die Anwendung im April dieses Jahres ein offizielles KDE-Projekt wurde. In den letzten zwei Jahren hat das Projekt deutliche Fortschritte gemacht. Simon, das Frontend der Spracherkennung, arbeitet jetzt kontextbasiert. Das bedeutet, dass erlernte Szenarien, wie etwa Programme starten, Menüpunkte aufrufen oder den Mauscursor bewegen von verschiedenen Faktoren beeinflusst wird. Dazu zählen geöffnete Programme, Dateiinhalte, die Anwendung in Vordergrund, Gesichtserkennung oder Lippenbewegungen (experimentell). Mit Hilfe der Gesichts- und Lippenerkennung soll Simon feststellen, ob der Nutzer spricht. So lässt sich verhindern, dass Umgebungsgeräusche als Spracheingaben interpretiert werden.

Simon nutzt DBus, um seinen Status bekannt zu geben, und kann mehrere Kommandos automatisch ausführen, wenn ein Szenario ausgelöst wird. Sprachmuster lassen sich via Voxforge von mehreren Anwendern gemeinsam nutzen. Die Entwickler verbesserten zudem die Benutzerfreundlichkeit und führten Base-Model-Container ein, mit denen sich Simon Base Models (SMBs) innerhalb von Simon importieren lassen.

Anwender können in Simon 0.4 die Lautstärke kalibrieren, die Audioverarbeitung lässt sich auf mehrere Threads aufteilen und die Sound-Implementierung basiert nun auf ALSA (Linux) und DirectSound (Windows). Es gibt mehrere neue Kommando-Plugins, die beispielsweise mehrere Kommandos in eine Warteschleife packen und hintereinander ausführen, zusammengesetzte Kommandos in einem separaten Thread abarbeiten oder Erinnerungen anzeigen. Simond, der Daemon zwischen dem Frontend Simon und der Spracherkennungsengine, kann erkannte Ergebnisse an mehrere Clients mit gleichen Nutzernamen senden und so auf allen Clients die gleichen Szenarios starten. Er verwendet ein schnelleres Synchronisationsprotokoll und unterstützt Anwender dabei, SPHINX-Sprachmodelle mit SphinxTrain zu erstellen bzw. gesprochene Worte mit PocketSphinx zu erkennen.

Sam, das akustische Modellierungswerkzeug für Anwender, die eine möglichst hohe Trefferquote bei der Spracherkennung benötigen, kann Beispiele des in Simon enthaltenen Test-Sets abspielen und aufnehmen und gibt bessere Rückmeldungen über die Ergebnisse. Die Entwickler verbesserten die Test-Analyse und fügten eine auf Latex basierende Berichtsfunktion hinzu. Der neue »konservative Trainingsmodus« parst die Erkennungs-Logs von Simond, so dass schnell feststellbar ist, welche Wörter weniger gut erkannt werden und noch einmal trainiert werden müssen. Simon Sample Collector (ssc), mit dem Proben verschiedener Sprecher und Nutzerumgebungen gesammelt werden können, um neue Sprachmodelle zu entwickeln, läuft stabiler und zeigt an öffentlichen Accounts keine Nutzer-Details mehr.

Mit Afaras und Simonoid wurde Simon um zwei neue Komponenten erweitert. Simonoid ist ein KDE-Plasmoid, das über den aktuellen Erkennungsstatus informiert und genutzt werden kann, um Simon zu starten und beenden. Afaras findet und repariert automatisch verloren gegangene Muster und erkennt schlechte Aufnahmen in großen Korpora.

Simon wird vom gemeinnützigen Verein »simon listens« entwickelt und basiert auf dem Hidden Markov Model Toolkit (HTK), HADI-BOMP sowie der Open-Source Large Vocabulary CSR Engine Julius. Alternativ kann in Simon 0.4 auch die freie Spracherkennung Sphinx genutzt werden. Aufgrund seiner Architektur und den verwendeten Programmen eignet es sich gut für Menschen mit Sprachproblemen, die mit einer »klassischen« Spracherkennung mit bereits fertigen Erkennungsmodellen Probleme haben könnten. Simon 0.4 ist auf dem KDE-Projekteserver verfügbar.

Werbung
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung