b8-0.4 out soon
Die neue Version meines Spam-Filters b8 steht in den Startlöchern. Mein Part (der Großteil ;-) ist schon fertig, ich warte jetzt nur noch darauf, daß Laurent Goussard mir seine angepaßte Speicherklasse für SQLite schickt. Dann gibt's das neue Release 0.4!
Geändert hat sich einiges.
- Wenn schon, denn schon. Der Filter heißt b8, also sollte auch die Klasse b8 heißen, und nicht mehr bayes. Und die ganzen internen Variablen entsprechend. Aber das war nur Kosmetik ;-)
- Der Filter ist jetzt deutlich sauberer implementiert: Keine
global(...);
-Aufrufe mehr (die kürzlich erst für Kollisionen gesorgt hatten), der ganze interne Kram spielt sich jetzt tatsächlich innerhalb der Klassen ab; das einbindende Script sollte damit in keinster Weise mehr behelligt werden. - Der ganze Code ist viel objektorientierter geworden, z. B. gibt es eine große Basis-Klasse, von der sich alle andern ableiten. Das ist aber eher eine Code-Qualität-Maßnahme gewesen und braucht den End-Anwender nicht zu interessieren ;-)
- Die Funktionen, die einen Text zerlegen, wurden in eine extra Klasse ausgelagert. Wenn also jemand einen speziellen Zerleger für spezielle Anwendungen will, kann er einfach einen einfügen und muß nur einen Eintrag in einer Konfigurationsdatei ändern (und bitte mir schicken, damit ich ihn ins nächste Release einbauen kann!).
- Die Konfigurationsdateien sind jetzt tatsächlich Konfigurationsdateien und enthalten keinen PHP-Code mehr.
- Das Interface wurde komplett überarbeitet. Es wird nun nicht mehr auf die eigentlich Datenbank zugegriffen, sondern eine SQL-abfragbare Arbeits-Datenbank erstellt (über ein weiteres Storage-Backend). Das Datenbank-Layout von b8 ist einfach nicht für das Sortieren aller Einträge nach irgendwas o. Ä. gedacht, sondern für den effizienten Betrieb während der eigentlichen Filter-Aufgabe. Also erschien mir das als die vernünftigste Lösung. Wenn alle Arbeit getan ist, kann aus der Arbeits-Datenbank wieder eine b8-Datenbank gemacht werden. Obschon hier auch nochmals darauf hingewiesen sei, daß man am besten den Filter einfach seine Arbeit machen lassen sollte, und das eher für Interessierte und für's Debugging gedacht war/ist.
- Die Speicherklassen können jetzt alle per Eintrag in der jeweiligen Konfigurationsdateien ihre Datenbanken selber erstellen.
- Es gibt viel mehr Fehler-Abfangen und Fehlermeldungen, wenn was schiefgeht.
Für MySQL-Nutzer hat sich auch einiges geändert:
- Die MySQL-Speicherklasse setzt jetzt nur noch addressierte Queries ab. Das heißt, die Queries werden jetzt nur noch mit einer Resource gemacht, nicht mehr „einfach so“. Falls also das Script, was b8 benutzt, ohnehin eine MySQL-Verbindung aufbaut, dann einfach den Rückgabewert von
mysql_connect(...)
an b8 weitergeben. Z. B.:$b8 = new b8($mysqlRes);
. Das ist sinnvoll, wenn eben das Script sowieso eine MySQL-Verbindung macht, und die b8-Tabelle auch in der selben Datenbank liegt.
Ansonsten können in der MySQL-Konfigurationsdatei auch Zugangsdaten zu einem MySQL-Server angegeben werden, und die Klasse macht sich ihre Verbindung selber. - WICHTIG: Bitte macht ein Datenbankupdate. Nicht erst, wenn Version 0.4 da ist, sondern gleich: eine Tabelle, die mit den Angaben aus der bisherigen Anleitung erstellt wurde, macht keinen Unterschied zwischen der Groß- und Kleinschreibung der Token-Namen. Das ist aber wichtig für ein besseres Arbeiten von b8! Einfach folgenden Query absetzen:
ALTER TABLE (Tabellen-Name) CHANGE token token VARCHAR(255) BINARY;
. Das behebt den Fehler. BerkeleyDB- und SQLite-Nutzer sind davon nicht betroffen. Falls tatsächlich einer noch bayes-php <= Version 0.2.1 einsetzen sollte, bitte erst das in der aktuellen Version beschrieben Datenbankupdate durchführen.
So, das waren mal die groben Änderungen. jedenfalls alle, die mir gerade einfallen ;-) Sobald die SQLite-Speicherklasse da ist, gibt's das Release. Bis dahin: noch viel Spaß ;-)