2012-01-25 16 views
0

私のCMS用にさらに別のスパム検出を作成したいと思います。大規模なデータセット用の軽量ベイズフィルタ

  1. MySQLの
  2. で簡単なPHPのクラスや店舗トークンを使用
  3. 私がいない象使い

のような大きなものをにSpamAssassinをインストールし、PHP-コネクタ

  • を使用します。現在、私は3つのオプションが表示さありませんMySQLのアプローチのように、時間とともに非常に大きくなり、システム全体のパフォーマンスを低下させる恐れがあるからです。 spamassassinのアプローチはより魅力的だと思われますが、インターネット上のどこにいても、SAのルールはメールとヘッダーに焦点を当てており、これは理想的な方法ではないことを書いています。最後に、私はmahoutを認識していますが、少し大きすぎて管理オーバーヘッドが大きくなる恐れがあります。

    Linuxサーバー上で動作し、PHPからアクセスできる、すばらしい、小型で効率的なものがありますか?

  • 答えて

    1

    最も簡単なアプローチは、MySQLのトークンですが、これはどれくらい効果があるのか​​分かりません。

    テキストをスパン/非スパムカテゴリに分類したい場合は、Mahoutが良い選択だと思います。 BigData用に構築されているため、マップ/リダクションが必要な場合はHadoopの設定が必要ですが、おそらく軽量の代替方法もあります:LogisticRegression Mahoutのアルゴリズム。あなたはセットアップのHadoopする必要はありません-

    は、あなたのハードディスクまたはどこか他の場所にバイナリ形式で訓練されたモデルを格納できるModelSerializerクラスがあります。

    あなたは試みることができる:

    <dependency> 
        <groupId>org.apache.mahout</groupId> 
        <artifactId>mahout-examples</artifactId> 
        <version>0.6</version> 
    </dependency> 
    

    あなたはあなたの問題のためのコード例として使用することができます以下のクラスがあります:

    org.apache.mahout.classifier.sgd.TrainNewsGroups 
    

    Hereは、ウェブ上でMahoutのに関するいくつかのより多くのリソースです。

    PHPからこれにアクセスするには、Javaで小さなRESTful Webサービスを構築するか、単純にコマンドラインインタフェースを作成することができます。

    これは少し役に立ちます。