2013-01-15 11 views
5

現在、Javaでタグ付けエンジンを実装しようとしており、テキスト(記事)からキーワード/タグを抽出するソリューションを探しています。私はPointwise相互情報を使用することを提案するstackoverflowのいくつかの解決策を見つけました。テキストからキーワード(タグ)を抽出する方法

Solution 1

Solution 2

私はそれを自分自身を実装する必要がありますので、私はpytonとNLTKを使用傾けます。しかし、私は確率を計算する方法を知らない。 式は次のようになります。

PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ] 

何私が知りたいことは

は、私はすでにランゲテキストコーパスや記事のコレクションを持っているP(用語、DOC)を計算する方法です。記事はコーパスの一部ではありません。コーパスはluceneで索引付けされています。

私を助けてください。 よろしくお願いいたします。

+0

あなたがタグを抽出したり、確率を計算したいですか?あなたのタイトルはタグを抽出することを示唆していますが、確率を計算する方法がわからないという質問があります。なぜ確率について気にしますか? – Bohemian

+0

私はタグを抽出したいので、P(term、doc)を計算する必要がありますが、それを行う方法はわかりません。 – BauerMitFackel

+0

何も計算しないのですか? 「タグを抽出する」も定義してください。 – Bohemian

答えて

0

アルゴリズムの多くは、このことのためにあります。

オープンソースツール:

ケア(http://www.nzdl.org/Kea/は)それはアプローチがトレーニングデータを使用し、統制語彙

マウイインデクサ(http://code.google.com/p/maui-indexer/)を監修しましたキーフレーズ抽出のために百科事典を使用するための機能を提供するkeaの拡張。

キャロット2(http://project.carrot2.org/)キーフレーズ抽出のための教師なしのアプローチ。それは、入力、出力形式、およびキーフレーズ抽出のためのパラメータの多くのバリエーションをサポートする。

マレットトピックモデリングモジュール(http://mallet.cs.umass.edu/topics.php

スタンフォードトピックモデリングツール(http://nlp.stanford.edu/software/tmt/tmt-0.3/

Mahoutのクラスタリングアルゴリズム(http://mahout.apache.org/

商用API:

錬金術API(http://www.alchemyapi.com/api/keyword-extraction/

ZemantaのAPIを(http://www.zemanta.com/developer/

ヤフー用語抽出API(http://developer.yahoo.com/contentanalysis/

+1

この回答は https://www.quoraからコピーされています。テキスト/解答/ Vineet-Yadav?srid = kKqEのランダムな段落からタグを抽出することができます – MFARID

関連する問題