私のCMS用にさらに別のスパム検出を作成したいと思います。大規模なデータセット用の軽量ベイズフィルタ
- MySQLの で簡単なPHPのクラスや店舗トークンを使用
- 私がいない象使い
のような大きなものをにSpamAssassinをインストールし、PHP-コネクタ
Linuxサーバー上で動作し、PHPからアクセスできる、すばらしい、小型で効率的なものがありますか?
私のCMS用にさらに別のスパム検出を作成したいと思います。大規模なデータセット用の軽量ベイズフィルタ
のような大きなものをにSpamAssassinをインストールし、PHP-コネクタ
Linuxサーバー上で動作し、PHPからアクセスできる、すばらしい、小型で効率的なものがありますか?
最も簡単なアプローチは、MySQLのトークンですが、これはどれくらい効果があるのか分かりません。
テキストをスパン/非スパムカテゴリに分類したい場合は、Mahoutが良い選択だと思います。 BigData用に構築されているため、マップ/リダクションが必要な場合はHadoopの設定が必要ですが、おそらく軽量の代替方法もあります:LogisticRegression Mahoutのアルゴリズム。あなたはセットアップのHadoopする必要はありません-
は、あなたのハードディスクまたはどこか他の場所にバイナリ形式で訓練されたモデルを格納できるでModelSerializerクラスがあります。
あなたは試みることができる:
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-examples</artifactId>
<version>0.6</version>
</dependency>
あなたはあなたの問題のためのコード例として使用することができます以下のクラスがあります:
org.apache.mahout.classifier.sgd.TrainNewsGroups
Hereは、ウェブ上でMahoutのに関するいくつかのより多くのリソースです。
PHPからこれにアクセスするには、Javaで小さなRESTful Webサービスを構築するか、単純にコマンドラインインタフェースを作成することができます。
これは少し役に立ちます。