Logo des Instituts Startseite · Das Institut · ChemNet · Fachinformationen · Internet · Index · Benutzerseiten

SPAMFILTER TRAINING

Nachdem Spamfilter mit festgelegten Bewertungen von Schlüsselwörten dem Erfindungsreichtum der Spammer nur bedingt standhalten konnten, wurde die Idee eines auf den individuellen Mailempfang des Benutzers ausgerichteten statistischen Verfahrens der Spamfilterung diskutiert. Die Grundlagen hierfür wurden von Paul Graham formuliert.

Das Verfahren geht davon aus, dass sowohl "gute" Mails (Hams) als auch "schlechte", unerwünschte Mails (Spams) gewissen Kriterien gehorchen, die für jeden Mailempfänger unterschiedlich sind. Der einzelne Benutzer muss daher mit einer genügend großen Anzahl von eindeutigen "Hams" und "Spams" eine Datenbank aufbauen,in der bestimmten Zeichenketten (Tokens) eine statistische Wahrscheinlichkeit zugeordnet wird, in einem "Ham" oder "Spam" vorzukommen. Einkommende Mails werden auf diese "Tokens" abgeprüft und erhalten eine Bewertung, durch die eine Einordnung als "Ham" oder "Spam" wahrscheinlich wird. Dies verlangt die aktive Mitarbeit des Benutzers: Er muss eine bestimmte Anzahl von "Hams" und "Spams" in getrennten Ordnern sammeln, um die Datenbank aufsetzen zu können. Es sollten mindestens je 100 Hams und Spams sein, sonst sind die Aussagen zu ungenau; je 500 Hams und Spams liefern i.a. sehr gute Ergebnisse. Mehr als je 2000 Hams und Spams verbessern das Filterergebnis nicht mehr signifikant, erhöhen aber die Größe der Datenbank. Wichtig ist ein einigermaßen ausgewogenes Verhältnis zwischen Anzahl der Hams und Spams. Am wichtigsten ist natürlich, dass in den verwendeten Ham- und Spam-Ordnern wirklich nur eindeutige Hams und Spams enthalten sind.

Um die Datenbank den sich wandelnden Strukturen und Inhalten der Spam-Mails anzupassen, ist ein regelmäßiges Upgrade der Datenbank zu empfehlen. Hierfür ist die Struktur des Programms Spambayes bestens geeignet: Es ordnet "unsichere" Mails, die nicht eindeutig "Ham" oder "Spam" zugeordnet werden können, in einen eigenen Ordner ein, der nach einigem Training nur noch 5-10% aller Mails umfasst. Wenn aus diesem Ordner vom Benutzer als "Ham" und "Spam" identifizierte Mails zum weiteren "Training" herangezogen werden, erreicht man beste Ergebnisse mit bis zu 99% Spam-Erkennung.

Der Vorteil einer weitgehenden Spamunterdrückung wird durch den Nachteil der notwendigen aktiven Mitarbeit des Benutzers erkauft; außerdem wird Plattenplatz für die Datenbank (ca. 2 - 5 MB pro Benutzer) gebraucht. Jeder Benutzer muss selbst entscheiden, ob die weitgehende Ausfilterung von Spammails diese Mehrarbeit wert ist.

 


www@chemie.fu-berlin.de Impressum Letzte Änderung: 2003-09-17