Login
Login-Name Passwort


 
Newsletter
Werbung

Do, 7. August 2014, 15:00

Spamfilterung mit bogofilter

Das Aussortieren von unerwünschten E-Mails (Spam) gehört zu den notwendigen und unbeliebten Aufgaben eines Internetnutzers. Hier wird gezeigt, wie das Programm bogofilter zum automatischen Erkennen von Spam eingesetzt werden kann.

Das Aussortieren von unerwünschten E-Mails (Spam) gehört zu den notwendigen und unbeliebten Aufgaben eines Internetnutzers. Normalerweise bietet ein E-Mail-Provider Spam-Filterung an. Eine Alternative oder auch Ergänzung dazu ist es, selber ein Filterprogramm zu verwenden.

Die Verwendung eines eigenen Filters hat den Vorteil, dass dieser auf den individuellen E-Mail-Verkehr spezialisiert werden kann. So sind für einen Sparkassen-Kunden vermutlich alle E-Mails zur Postbank Spam. Und für einige Personen sind alle englischsprachigen E-Mails Spam. Da Spam sich immer wieder verändert, sollte sich auch der Filter immer wieder anpassen. Darum muss sich der Anwender selber sorgen.

In diesem Artikel wird gezeigt, wie das Programm bogofilter zum automatischen Erkennen von Spam eingesetzt werden kann. Analog lassen sich auch andere Programme wie Spamassassin verwenden. Bogofilter ist in den gängigen Distributionen im gleichnamigen Paket enthalten.

Funktionsweise

Bogofilter verwendet einen Bayes-Filter zur Spam-Erkennung. Vereinfacht beschrieben ist das Verfahren des Bayes-Filters wie folgt:

Zum Trainieren des Filters sortiert der Anwender zuerst E-Mails in Spam (unerwünschte) und Ham (erwünschte). Der Filter zählt nun für jedes Wort, wie häufig es in Spam und in Ham vorkommt.

Beispiel: Verteilung von Worten
WortSpamHaminsgesamt
Viagra 200 E-Mails 1 E-Mail 201 E-Mails
Linux 10 E-Mails 900 E-Mails 910 E-Mails
Bank 6 E-Mails 4 E-Mails 10 E-Mails

Zur Filterung einer neuen E-Mail wird auf Grundlage der in der E-Mail enthaltenen Worte die Bayes-Formel verwendet, um die Wahrscheinlichkeit für Spam zu ermitteln.

Beispiele:

  • Ist in der neuen E-Mail das Wort »Viagra« enthalten, ist diesbezüglich die Wahrscheinlichkeit auf Spam 200/201 = 99,5%.
  • Für »Linux« ist die Wahrscheinlichkeit hingegen 1,1% und für »Bank« 60%.

Aus den Wahrscheinlichkeiten auf Grundlage der einzelnen Worte wird eine Spam-Wahrscheinlichkeit für die gesamte E-Mail berechnet. Bogofilter ermittelt analog eine Wahrscheinlichkeit dafür, dass die E-Mail Ham ist. Die beiden Wahrscheinlichkeiten werden zu einem Wert »Bogosity« zwischen 0 und 1 kombiniert. Dabei steht ein Wert von nahe 0 für Ham, von nahe 1 für Spam und für etwa 0,5 für eine unbekannte Einordnung. Bogofilter kategorisiert demnach die E-Mails in die drei Kategorien »Spam«, »Ham« und »Unbekannt«.

Für eine genauere Erläuterung verweist das Handbuch von bogofilter (man bogofilter) am Ende auf Artikel über verwendete Ansätze.

Kommentare (Insgesamt: 0 || Kommentieren )
Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung