NLPでは、文章またはおそらく段落のトピックを決定することは難しいことです。しかし、私はタイトルがWikipediaの記事のようなものであるかどうかを判断しようとしています(もちろん他の方法を使わないで)。私の唯一の唯一の最も頻繁な単語を見つけることです。ニューヨークの記事のために、これらは上位の結果だった:361 177への急激な低下が関係なく、私は統計的有意性のいくつかの並べ替えを見ることができます。このことから本文の主題を見つける方法
[('new', 429), ('city', 380), ('york', 361), ("'s", 177), ('manhattan', 90), ('world', 84), ('united', 78), ('states', 74), ('===', 70), ('island', 68), ('largest', 66), ('park', 64), ('also', 56), ('area', 52), ('american', 49)]
ですが、私は(どちらも統計やNLPの専門家をしています実際には私は両方で完全なnoobです)これは長いテキスト本文のトピックを決定する実行可能な方法です。もしそうなら、私はこれを計算するために何を求めていますか?もしそうでなければ、NLPにはもっと大きなテキストのトピックやタイトルを決定する別の方法がありますか?参考のため、nltkとPython 3を使用しています。
チュートリアルへのリンクを提供したり、もっと自分で詳細を教えてください。 –
これは、[gensim](https://radimrehurek.com/gensim/wiki.html)のステップバイステップチュートリアル LDAが内部で動作する方法に関心がある場合は、[this](https:// www.cs.princeton.edu/~blei/kdd-tutorial.pdf) –