2011-11-27 15 views

答えて

1

HtmlUnitを使用すると、記事のHTMLを解析し、検索したいドキュメントの部分をクエリできます。次に、独自のデザインの単純なアルゴリズムを適用して、タグ/キーワードを決定することができます。

たとえば、split()のように空白のテキストを入力し、各単語が何回出現するかをカウントします。 "and"、 "the"、 "if"などのようなものを無視して最も多く出現する単語がキーワードの候補になります。

+0

ありがとうございますが、私はトークン化の部分に興味があります。私はステミングとそれがどのように機能するのかを知っています。しかし、私はすでに一般的なケースでそれを行うアルゴリズムを探しています。 – tomermes

3

チェック次のキーワード/トピック抽出ソフトウェア/ツール:

  • Kea - キーワード抽出
  • Tmt - スタンフォードトピック検出ツールキット(Excelとの統合、Scalaで書かれたスクリプトが)、それはサポートしています半自動トピック検出モード(ユーザーのフィードバック付き)
  • maui

あなたがあなた自身のトピック検出システムを開発したい場合、あなたが作業LDAサンプルへLDA implementation in mallet(リンクで見てみる必要があり、マレットホームページの一つは、最新malletバージョンでは動作しません。 )。

関連する問題