Die Entwicklungsversion von b8, die die PHP-4-Kompatibilität endlich über Bord wirft und erhebliche Verbesserungen enthält, ist bisher noch nicht getaggt. Prinzipiell könnte sie aber bereits benutzt werden. Wer will, kann gern einen Blick darauf im nasauber.de-Subversion-Repository werfen!
b8 ist ein in PHP implementierter Bayesscher Spam-Filter (früher „bayes-php“). Er ist dafür gedacht, einen Weblog oder ein Gästebuch spamfrei zu halten. Der Filter kann irgendwo im vorhandenen PHP-Code eingesetzt werden und trifft Aussagen darüber, ob ein Text Spam ist oder nicht. Dafür benutzt er eine statistische Textanalyse (Details stehen unter How does it work? in der readme).
Um diese Aussagen treffen zu können, muß b8 zunächst einige Texte „lernen“, damit entschieden werden kann, was gut und was schlecht ist. Wenn Fehler beim Klassifizieren unbekannter Texte auftreten, können diese korrigiert werden und b8 lernt daraus – und wird von mal zu mal besser.
Grundsätzlich ist b8 ein Bayesscher Spamfilter wie Bogofilter oder SpamBayes, aber nicht dafür gedacht, E-Mails zu filtern. Ich kenne keinen in PHP geschriebenen Spamfilter (bzw. keinen, der über das Niveau von „so könnte man einen PHP-Bayes-Filter schreiben“ hinausgeht), der dazu gedacht ist, Weblog-Kommentare oder Gästebucheinträge zu filtern. Und das ist die Daseinsberechtigung von b8 ;-)
Bedingt durch diesen Einsatzzweck funktioniert b8 ein bißchen anders als die meisten Bayes-Filter. Siehe hierzu auch What's different? in der readme.
Die ganze Dokumentation steht in der readme. Ich war zu faul, das alles auch auf deutsch zu schreiben, deswegen auf englisch ;-)
Wenn Interesse an der Leistungsfähigkeit von b8 oder dem Herausfinden der besten Einstellungen besteht, verweise ich auf den Artikel Statistical Discussion.
Wer will, kann gern ein bißchen Werbung für b8 machen! Hier ein paar Logo-Vorschläge:
| png svg |
<p> <a href="http://nasauber.de/programme/b8/"> <img width="..." height="..." src="..." alt="b8 protected" /> </a> </p> |
|
| png svg |
||
| png svg |
Mittlerweile scheinen wirklich schon einige Websites b8 zu benutzen! Solltest du das auch machen bzw. planen, wäre es super, wenn du mir eine E-Mail schreiben würdest – einfach, weil's mich interessiert, wo der Filter arbeitet :-)
An alle Windows-User: unter Umständen sagt euch das Format „.tar.gz“ nicht unbedingt was … auf UNIX-Systemen ist es weit verbreitet. Solltet ihr kein Packprogramm haben, was das aufmachen kann, dann empfehle ich 7-zip.
b8-0.4.4.tar.gz
45,6 KB, Letzte Änderung: 03.02.2009
Ältere Versionen:
b8-0.4.3.tar.gz (43,4 KB)
b8-0.4.2.tar.gz (42,8 KB)
b8-0.4.1.tar.gz (42 KB)
b8-0.4.tar.gz (41,2 KB)
b8-0.3.3.tar.gz (24,9 KB)
Ältere Versionen von bayes-php:
bayes-php-0.3.3.tar.gz (24,3 KB)
bayes-php-0.3.2.tar.gz (24,9 KB)
bayes-php-0.3.1.tar.gz (22,8 KB)
bayes-php-0.3.tar.gz (22,7 KB)
bayes-php-0.2.1.tar.gz (17 KB)
bayes-php-0.2.tar.gz (16,8 KB)
bayes-php-0.1.2.tar.gz (13,4 KB)
bayes-php-0.1.1.tar.gz (13,1 KB)
bayes-php-0.1.tar.gz (12,8 KB)