Login


 
Newsletter
Werbung
Do, 6. September 2012, 15:00

LanguageTool – Freie Stil- und Grammatikprüfung

Von gulp21

Die Funktionsweise von LanguageTool

Die Prüfung eines Textes durch LanguageTool erfolgt in vier Schritten: Zunächst wird der Text in einzelne Sätze geteilt. Jeder Satz wird dann in Wörter, sogenannte »Tokens«, aufgeteilt.

Jedem Token werden dann im dritten Schritt sogenannte »Part-of-speech Tags« (POS-Tags, »Wortart-Etiketten«) zugewiesen, d.h. jedem Wort werden die grammatischen Kategorien, zu denen es gehört, zugeordnet. Für das Wort »Kind« sieht dies z.B. so aus:

Kind/SUB:AKK:SIN:NEU, Kind/SUB:DAT:SIN:NEU, Kind/SUB:NOM:SIN:NEU

Die POS-Tags der Wörter »Das«, »Kind« und »isst«

Markus Brenneis

Die POS-Tags der Wörter »Das«, »Kind« und »isst«

Das bedeutet, dass der Tagger erkannt hat, dass es sich bei »Kind« um ein Substantiv (SUB) im Singular (SIN) handelt und das grammatische Geschlecht Neutrum (NEU) ist. Als Kasus kommen Akkusativ (AKK), Dativ (DAT) und Nominativ (NOM) in Frage.

Zu beachten ist, dass LanguageTool nicht basierend auf dem Kontext bestimmte POS-Tags ausschließt. Auch in dem Satz »Das Kind isst.«, in dem »Kind« eindeutig das Subjekt ist und damit als Kasus nur der Nominativ in Frage kommt, werden dem Wort alle möglichen POS-Tags zugeordnet. Dieses Verhalten ist sinnvoll, da es sonst bei grammatisch falschen Sätzen (»Das Kinder isst.«) zu Problemen kommen könnte. Entwickler haben aber dennoch die Möglichkeit, einzelne Disambiguierungs-Regeln hinzuzufügen.

Im vierten und letzten Schritt wird der analysierte Text gegen die eingebauten Java- und XML-Regeln geprüft.

Ich will mitmachen!

Jeder, der neugierig geworden ist, findet auf der LanguageTool-Website weiterführende Links. Wer bei der Entwicklung von LanguageTool mithelfen will, kann dies natürlich gerne tun (Programmierkenntnisse sind nicht erforderlich). Im Forum oder im Bugtracker können Fehlalarme und Regelwünsche gemeldet werden.

Wie man selbst Regeln für LanguageTool erstellen kann, soll in weiteren Artikeln beschrieben werden.

Autoreninformation

Markus Brenneis (Webseite) ist seit November 2011 LanguageTool-Entwickler und schreibt regelmäßig u.a. neue Regeln für die deutsche Grammatikprüfung.

Dieser Artikel ist in freiesMagazin 08/2012 (ISSN 1867-7991) erschienen. Veröffentlichung mit freundlicher Genehmigung.

  • Das Werk darf vervielfältigt, verbreitet und öffentlich zugänglich gemacht werden, Abwandlungen und Bearbeitungen des Werkes müssen unter den gleichen Bedingungen weitergegeben werden. Der Name des Autors/Rechteinhabers muss in der von ihm festgelegten Weise genannt werden.

    - Weitere Informationen
Pro-Linux
Frohe Weihnachten Fest!
Neue Nachrichten
Werbung