[English version]

b8

In b8 0.6 hat sich das Datenbankformat geändert. Bei einem Update von einer früheren Version bitte den Abschnitt Update from prior versions in der Dokumentation lesen!

Aus der Readme: Was ist b8?

b8 ist ein statistischer („Bayesscher“1) Spamfilter, der in PHP 5 implementiert ist. Er ist dafür gedacht, einen Weblog oder ein Gästebuch spamfrei zu halten. Der Filter kann irgendwo in bestehendem PHP-Code benutzt werden und gibt Auskunft darüber, ob ein Text Spam ist oder nicht. Hierfür wird eine statistische Textanalyse benutzt. Was der Filter macht: man gibt ihm einen Text und bekommt einen Wert zwischen 0 und 1 zurück. Ist dieser Wert nahe 1, dann ist der Text wahrscheinlich Spam, ist er nahe 0, dann nicht. Unter How does it work? stehen Details hierüber.
Grundsätzlich ist b8 ein Programm ähnlich wie Bogofilter oder SpamBayes, aber nicht dafür gedacht, E-Mails zu klassifizieren. Deswegen funktioniert b8 etwas anders als E-Mail-Spamfilter. Interessierte können unter What's different? genauere Informationen hierüber nachlesen.

Um zwischen Spam und Ham (kein Spam) unterscheiden zu können, muss b8 zunächst ein paar Texte „lernen“. Wenn bei der Klassifizierung Fehler auftreten, oder das Ergebnis nicht eindeutig genug ist, kann einen manuelles Zuordnen erfolgen und b8 wird mit jedem „gelernten“ Text besser werden.

Die ganze Dokumentation ist in der readme zu finden.

Mein Dank gebührt Gary Robinson, denn seine Aufsätze A Statistical Approach to the Spam Problem und Spam Detection beschreiben die Basis für die Mathematik und die Algorithmen, die in b8 zum Einsatz kommen.

1 Ich bin kein Mathematiker, aber so weit ich es überblicken kann, hat die Mathematik, die in b8 eingesetzt wird, nicht viel mit dem eigentlichen Satz von Bayes zu tun. Deswegen nenne ich b8 einen statistischen Spamfilter, nicht einen Bayesschen.

Statistische Analyse

Alle, die an der Effektivität von b8 und an einer Diskussion über die besten Einstellungen für den Filter interessiert sind, können gerne die Statistical Discussion lesen.

Mitmachen

Der aktuelle Stand des Quellcodes kann (anonym) über git://l3u.de/b8.git bezogen werden. Bitte immer gegen git master patchen!

Download

b8-0.6.1.tar.gz
57.3 KB, Letzte Änderung: 2014-03-12

Ältere Versionen:
b8-0.6.tar.gz (53.6 KB)
b8-0.5.2.tar.gz (48.4 KB)
b8-0.5.1.tar.gz (48.4 KB)
b8-0.5-r1.tar.gz (43.8 KB)
b8-0.5.tar.gz (41.8 KB)

Ältere Versionen

Der PHP-4-Branch von b8

Die PHP-4-kompatible Version von b8 ist unter branch_0.4.x zu finden (incl. Version 0.3.3, der ersten Version mit den Namen „b8“). Dieser Code wird nicht mehr weiterentwickelt.

bayes-php

Die ersten Releases von b8 (noch mit dem Namen „bayes-php“) sind aus historischen Gründen noch unter old_releases zu finden.

An alle Windows-User: unter Umständen kennt ihr das Paketformat „.tar.gz“ nicht. Auf UNIX-(ähnlichen) Systemen ist es weit verbreitet. Sollte kein Packprogramm installiert sein, das die Datei öffnen kann, empfehle ich 7zip. Evtl. packt das Packprogramm nur eine einzelne Datei mit der Endung „.tar“ aus. Falls das so ist, muss diese zusätzlich entpackt werden!

nasauber.de © 2016 by Tobias Leupold