現在、Javaでタグ付けエンジンを実装しようとしており、テキスト(記事)からキーワード/タグを抽出するソリューションを探しています。私はPointwise相互情報を使用することを提案するstackoverflowのいくつかの解決策を見つけました。テキストからキーワード(タグ)を抽出する方法
私はそれを自分自身を実装する必要がありますので、私はpytonとNLTKを使用傾けます。しかし、私は確率を計算する方法を知らない。 式は次のようになります。
PMI(term, doc) = log [ P(term, doc)/(P(term)*P(doc)) ]
何私が知りたいことは
は、私はすでにランゲテキストコーパスや記事のコレクションを持っているP(用語、DOC)を計算する方法です。記事はコーパスの一部ではありません。コーパスはluceneで索引付けされています。
私を助けてください。 よろしくお願いいたします。
あなたがタグを抽出したり、確率を計算したいですか?あなたのタイトルはタグを抽出することを示唆していますが、確率を計算する方法がわからないという質問があります。なぜ確率について気にしますか? – Bohemian
私はタグを抽出したいので、P(term、doc)を計算する必要がありますが、それを行う方法はわかりません。 – BauerMitFackel
何も計算しないのですか? 「タグを抽出する」も定義してください。 – Bohemian