テキストからキーワード（タグ）を抽出する方法

現在、Javaでタグ付けエンジンを実装しようとしており、テキスト（記事）からキーワード/タグを抽出するソリューションを探しています。私はPointwise相互情報を使用することを提案するstackoverflowのいくつかの解決策を見つけました。テキストからキーワード（タグ）を抽出する方法

私はそれを自分自身を実装する必要がありますので、私はpytonとNLTKを使用傾けます。しかし、私は確率を計算する方法を知らない。式は次のようになります。

PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ]

何私が知りたいことは

は、私はすでにランゲテキストコーパスや記事のコレクションを持っているP（用語、DOC）を計算する方法です。記事はコーパスの一部ではありません。コーパスはluceneで索引付けされています。

私を助けてください。よろしくお願いいたします。

あなたがタグを抽出したり、確率を計算したいですか？あなたのタイトルはタグを抽出することを示唆していますが、確率を計算する方法がわからないという質問があります。なぜ確率について気にしますか？ – Bohemian

私はタグを抽出したいので、P（term、doc）を計算する必要がありますが、それを行う方法はわかりません。 – BauerMitFackel

何も計算しないのですか？「タグを抽出する」も定義してください。 – Bohemian

アルゴリズムの多くは、このことのためにあります。

オープンソースツール：

ケア（http://www.nzdl.org/Kea/は）それはアプローチがトレーニングデータを使用し、統制語彙

マウイインデクサ（http://code.google.com/p/maui-indexer/）を監修しましたキーフレーズ抽出のために百科事典を使用するための機能を提供するkeaの拡張。

キャロット2（http://project.carrot2.org/）キーフレーズ抽出のための教師なしのアプローチ。それは、入力、出力形式、およびキーフレーズ抽出のためのパラメータの多くのバリエーションをサポートする。

マレットトピックモデリングモジュール（http://mallet.cs.umass.edu/topics.php）

スタンフォードトピックモデリングツール（http://nlp.stanford.edu/software/tmt/tmt-0.3/）

Mahoutのクラスタリングアルゴリズム（http://mahout.apache.org/）

商用API：

錬金術API（http://www.alchemyapi.com/api/keyword-extraction/）

2014-08-21 12:18:49

この回答は https：//www.quoraからコピーされています。テキスト/解答/ Vineet-Yadav？srid = kKqEのランダムな段落からタグを抽出することができます – MFARID

答えて