b8 ist ein in PHP 5 implementierter Bayesscher Spam-Filter. Er ist dafür gedacht, einen Weblog oder ein Gästebuch spamfrei zu halten. Der Filter kann irgendwo im vorhandenen PHP-Code eingesetzt werden und trifft Aussagen darüber, ob ein Text Spam ist oder nicht. Dafür benutzt er eine statistische Textanalyse (Details stehen unter How does it work? in der readme).
Um diese Aussagen treffen zu können, muß b8 zunächst einige Texte „lernen“, damit entschieden werden kann, was gut und was schlecht ist. Wenn Fehler beim Klassifizieren unbekannter Texte auftreten, können diese korrigiert werden und b8 lernt daraus – und wird von mal zu mal besser.
Grundsätzlich ist b8 ein Bayesscher Spamfilter wie Bogofilter oder SpamBayes, aber nicht dafür gedacht, E-Mails zu filtern. Ich kenne keinen in PHP geschriebenen Spamfilter (bzw. keinen, der über das Niveau von „so könnte man einen PHP-Bayes-Filter schreiben“ hinausgeht), der dazu gedacht ist, Weblog-Kommentare oder Gästebucheinträge zu filtern. Und das ist die Daseinsberechtigung von b8!
Bedingt durch diesen Einsatzzweck funktioniert b8 ein bißchen anders als die meisten Bayes-Filter. Siehe hierzu auch What's different? in der readme.
Die ganze Dokumentation steht in der readme. Ich war zu faul, das alles auch auf deutsch zu schreiben, deswegen auf englisch ;-)
Wenn Interesse an der Leistungsfähigkeit von b8 oder dem Herausfinden der besten Einstellungen besteht, verweise ich auf den Artikel Statistical Discussion.
Mittlerweile scheinen wirklich schon einige Websites b8 zu benutzen! Solltest du das auch machen bzw. planen, wäre es super, wenn du mir eine E-Mail schreiben würdest – einfach, weil's mich interessiert, wo der Filter arbeitet :-)
An alle Windows-User: unter Umständen sagt euch das Format „.tar.gz“ nicht unbedingt was … auf UNIX-Systemen ist es weit verbreitet. Solltet ihr kein Packprogramm haben, was das aufmachen kann, dann empfehle ich 7-zip.
b8-0.5-r1.tar.gz
43,8 KB, Letzte Änderung: 27.06.2010
Ältere Versionen:
b8-0.5.tar.gz (41,8 KB)
Die PHP-4-kompatible Version von b8 wird vermutlich noch recht oft eingesetzt und deswegen zunächst noch mit Bugfixes und Updates versorgt. Die Quelldateien sind unter branch_0.4.x zu finden (incl. Version 0.3.3, der ersten, die „b8“ hieß).
Die ersten b8-Releases mit dem ursprünglichen Namen „bayes-php“ sind (aus historischen Gründen) unter old_releases zu finden.