私は、会話の流れからキーワードを抽出して(そして最後にこれらの単語のタグクラウドを生成する)必要なアプリケーションに取り組んでいます。私は、次の手順で検討しています:nltkライブラリを使用してキーワードを抽出する
- トークン化
- 削除ストップワード(文字列のリストのリストとして記憶されている出力)の各生の会話を アップ
- 使用ステマー(ポーター語幹アルゴリズム)
ここまで、nltkは私が必要とするすべてのツールを提供しています。しかしその後、私は何とかこれらの言葉を「ランク付け」して最も重要な言葉を考え出す必要があります。誰もがnltkのツールがこれに使用されるかもしれないと私に示唆することができますか?
おかげ Nihit
ランキング条項への有望なアプローチは、特に単語の雲を発生させるため、倹約言語モデルです。私の実装はhttps://github.com/larsmans/weighwords(WIP) –