2016-07-25 4 views
-1

NLPでは、文章またはおそらく段落のトピックを決定することは難しいことです。しかし、私はタイトルがWikipediaの記事のようなものであるかどうかを判断しようとしています(もちろん他の方法を使わないで)。私の唯一の唯一の最も頻繁な単語を見つけることです。ニューヨークの記事のために、これらは上位の結果だった:361 177への急激な低下が関係なく、私は統計的有意性のいくつかの並べ替えを見ることができます。このことから本文の主題を見つける方法

[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)] 

ですが、私は(どちらも統計やNLPの専門家をしています実際には私は両方で完全なnoobです)これは長いテキスト本文のトピックを決定する実行可能な方法です。もしそうなら、私はこれを計算するために何を求めていますか?もしそうでなければ、NLPにはもっと大きなテキストのトピックやタイトルを決定する別の方法がありますか?参考のため、nltkとPython 3を使用しています。

答えて

2

あなたは十分なデータを持っているとのためのトピックを持っているしたい場合段落や記事のようなテキストの大きな本体は、LDAのようなトピックモデリング方法を使用することができます。

Gensimには、LDAの使いやすい実装があります。

+0

チュートリアルへのリンクを提供したり、もっと自分で詳細を教えてください。 –

+0

これは、[gensim](https://radimrehurek.com/gensim/wiki.html)のステップバイステップチュートリアル LDAが内部で動作する方法に関心がある場合は、[this](https:// www.cs.princeton.edu/~blei/kdd-tutorial.pdf) –

4

以下のアルゴリズムを使用することを検討してください。これらは、キーワード抽出アルゴリズム

TF-IDF

TextRank

Hereチュートリアルでは、ntlkにTF-IDFを使用して開始を取得されている

+0

Huh?これらのメソッドを使用する前に抽出*を行います。 – tripleee

関連する問題