Spam – eine Zwischenbilanz
Tags:
Computer,
Cooles Zeugs,
Homepage,
Internet,
Nur so,
Open Source,
PHP,
Programmieren,
Web 2.0,
Weltverbesserung
Da ich in letzter Zeit unerhört viel Spam bekomme (neu: für irgendwelche Russischen Pornoseiten, mit nem Haufen Text, der vermutlich kyrillisches Alphabet mit falscher Kodierung ist), muß ich jetzt wirklich mal ein bißchen mit meinem Bayesschen PHP-Spamfilter b8 rumprahlen. Ohne mir selber auf die Schulter klopfen zu wollen hier die Statistik über Spamaufkommen, die ich jetzt seit ein paar Monaten erstelle:
- 1382 Einträge in Weblog und Gästebuch, 101 davon Ham, keine falsch positiven Einträge, 1281 Spam, davon 11 falsch negative. Das heißt für die Performance von b8:
- 99,15 % Sensitivität, der für diesen Fall interessanteste Wert: d. h., daß b8 mit einer Wahrscheinlichkeit von 99,15 % einen Spam-Eintrag auch richtig als solchen erkennt. Das kann sich sehen lassen, oder?!
- 100 % positive Vorhersage. Das ist äußerst wichtig für einen Spamfilter, weil: d. h., daß jeder einzelne von b8 als Spam klassifizierte Eintrag auch wirklich Spam war und somit kein einziger Ham-Eintrag fälschlicherweise rausgeflogen ist. Weil ein Spam-Eintrag, der fälschlicherweise als Kommentar im Weblog landet, ist bei weitem nicht so schlimm wie ein Ham-Eintrag, der fälschlicherweise rausfliegt!
Das waren jetzt die wichtigen Werte – aber der Vollständigkeit halber hier noch die beiden anderen Ergebnisse der Vierfeldertafel:
- 100 % Spezifität, d. h., daß jeder einzelne Ham-Eintrag von b8 auch als solcher erkannt wurde und schließlich noch
- 90,18 % negative Vorhersage, d. h., daß immerhin 90,18 % der Einträge, die b8 als Ham klassifiziert, auch tatsächlich Ham sind. Daß das nicht mehr ist (obwohl der Wert im Vergleich zu dem, der bogofilter beim E-Mails-Klassifizieren meines Postfachs erreicht, nämlich 62,85 %, sich schon immer noch sehen lassen kann!), liegt einfach daran, daß die im Verhältnis zu allem Spam-Einträgen wenigen falsch negativen Einträge im Verhältnis zu den insgesamt wenigen Ham-Einträgen stärker ins Gewicht fallen.
Also ich muß sagen, ich bin gut zufrieden mit dem, was b8 so tut :-)