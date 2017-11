Do, 30. November 2017, 12:27

Software::Business

Mozilla veröffentlicht freie Engine und Daten für Spracherkennung

Mozilla hat eine freie Spracherkennungs-Engine und einen freien Sprachdatensatz in der ersten Version freigegeben. Mit diesen sollen den den Markt dominierenden proprietären Spracherkennungssystemen freier Code und freie Daten entgegengesetzt werden.

Mozilla Mozilla DeepSpeech und Common Voice

Spracherkennung ist heutzutage alltäglich und wird in vielen Bereichen eingesetzt. Was Entwickler, Forscher und Startups derzeit davon abhält, tiefer in die Spracherkennung einzusteigen, ist laut Mozilla, dass nicht jeder Zugriff auf die notwendigen Daten und technologischen Hilfsmittel hat.

Aus diesem Grund setzt sich Mozilla für eine Öffnung des vergleichsweise jungen Technologiesegments ein, so dass sich immer mehr Menschen beteiligen, ihre Innovationen einbringen und mit den großen Konzernen in Wettbewerb treten können.

Mozilla sieht ein großes Potential der Spracherkennung und hat deshalb innerhalb seines Machine-Learning-Teams die Projekte DeepSpeech und Common Voice gegründet. In diesem Rahmen wurde eine eigene Spracherkennungs-Engine entwickelt, die ab jetzt als freie Software verfügbar ist.

Die Engine DeepSpeech hat nach Angaben von Mozilla eine Erkennungsrate, die derjenigen von Menschen nahekommt. Ihre Wortfehlerrate soll beim LibriSpeech Test-Clean-Datensatz lediglich 6,5 Prozent betragen. Einzelheiten zur Architektur der Engine und dem verwendeten Spracherkennungsmodell sind in einem Blog-Beitrag von Reuben Morais nachzulesen. DeepSpeech ist im Quellcode auf Github zu finden. Ferner werden Pakete für Python, NodeJS und ein Kommandozeilenprogramm angeboten. Der Code steht unter der MPL 2.0.

Zugleich hat Mozilla die erste Version des Projekts Common Voice veröffentlicht. Dabei handelt es sich um eine öffentlich und frei zugängliche Sprachdatenbank in der Mozilla seit dem Start von Common Voice über seine Webseite und die iOS-App fast 400.000 Sprachaufnahmen von 20.000 unterschiedlichen Personen gesammelt hat. Insgesamt stehen in dieser Sammlung rund 500 Stunden an Material zur Verfügung. Zur Zeit sind alle Aufnahmen auf Englisch. Weitere Sprachen sollen ab nächstes Jahr hinzukommen.