Login
Newsletter
Werbung

Do, 18. Oktober 2012, 15:00

LanguageTool-Tutorial – Teil I: Einfache XML-Regeln

Dieser Artikel zeigt auf, wie man in XML formulierte Rechtschreiberegeln für LanguageTool erstellt.

Von gulp21

Im ersten Artikel der Reihe wurde die freie Stil- und Grammatikprüfung LanguageTool vorgestellt. Wie versprochen wird in diesem Artikel gezeigt, wie einfache, in XML geschriebene Regeln für LanguageTool erstellt werden. Und es sei nochmals erwähnt: Programmierkenntnisse sind nicht erforderlich (XML-Grundkenntnisse könnten aber nicht schaden).

Es ist doch immer wieder das selbe...

Mit Hilfe des Rule Creator kann man einfache Regeln erstellen

Markus Brenneis

Mit Hilfe des Rule Creator kann man einfache Regeln erstellen

Wie die Überschrift vermuten lässt, soll als erstes eine Regel erstellt werden, die auf ein fälschlicherweise getrennt geschriebenes »dasselbe« hinweisen soll. Mit Hilfe des Rule Creators ist dies relativ einfach möglich.

Als erstes wählt man als Sprache (»Language«) Deutsch (»German«) aus; das hat keine Auswirkung auf die generierte Regel, sondern ist für das automatische Testen der Regel notwendig. Als falsche Wörter (»Wrong words«) wird das fehlerhafte »das selbe« eingetragen. Anschließend müssen noch zwei Beispielsätze eingegeben werden: ein Satz, der den Fehler enthält (»Sentence with error«) und ein Satz, in dem der Fehler behoben ist (»Sentence with error corrected«). Also z.B. »Das Kind trägt heute das selbe T-Shirt wie gestern.« und die korrekte Variante mit »dasselbe«. Nach einem Klick auf »Continue« werden mehr als 8.000 Wikipediaartikel anhand der fast fertigen Regel geprüft. Sollten dabei Fehler gefunden werden, sind dies entweder Fehler in dem entsprechenden Wikipedia-Artikel oder die Regel generiert Fehlalarme und sollte verbessert werden.

Da dies für das Beispiel aber nicht der Fall ist, kann jetzt die Meldung (»Error Message«), die von LanguageTool ausgegeben werden soll, wenn der Fehler gefunden wird, eingegeben werden (z.B.: »"dasselbe" wird zusammengeschrieben.«); der Korrekturvorschlag muss dabei in doppelten Anführungszeichen stehen. Als Regelname (»Rule Name«) würde sich – passend zu den anderen in LanguageTool verwendeten Regelbezeichnungen nach dem Muster »Kategorie: 'falsch (richtig)'« – »Zusammen-/Getrenntschreibung: 'das selbe (dasselbe)'« anbieten. Durch einen Klick auf »Create XML« wird die Regel erstellt:

<rule id="ZUSAMMEN_GETRENNTSCHREIBUNG_DAS_SELBE_DASSELBE" name="Zusammen-/Getrenntschreibung: 'das selbe (dasselbe)'">
    <pattern>
        <token>das</token>
        <token>selbe</token>
    </pattern>
    <message><suggestion>dasselbe</suggestion> wird zusammengeschrieben.</message>
    <example type="incorrect">Das Kind trägt heute <marker>das selbe</marker> T-Shirt wie gestern.</example>
    <example type="correct">Das Kind trägt heute dasselbe T-Shirt wie gestern.</example>
</rule>

Die Regel erklärt

Die Regel steht in einem rule-Element mit den Attributen id und name. Die ID ist eine einmalige Bezeichnung, die nur aus Großbuchstaben und keinen Leerzeichen besteht und intern benutzt wird, um die Regel anzusprechen. Die automatisch generierte ID könnte auch problemlos auf »DAS_SELBE« gekürzt werden. Der Name der Regel wird im Einstellungsdialog angezeigt.

Zwischen den pattern-Tags steht das »Muster«, das den Fehler beschreibt und aus einer Folge von Tokens besteht, die im Beispiel die Wörter »das« und »selbe« sind. Zu beachten ist, dass <token>das selbe</token> nicht funktionieren würde. (Merke: Ein Token enthält nie ein Leerzeichen.) Die message-Tags enthalten die Fehlerbeschreibung, wobei der Korrekturvorschlag in suggestion-Tags eingeschlossen ist.

Last but not least kommen noch die beiden Beispielsätze, die zum automatischen Testen der Regeln verwendet werden. Die Wörter, die LanguageTool im Text als falsch markieren soll, stehen dabei im marker-Element.

Kommentare (Insgesamt: 0 )
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung