私は大きなデータコースプロジェクトに取り組んでいるグループの一員であり、私たちはNLPの問題として認識しています。現在のようなJSONにフォーマットされたデータのグループいますトピックの自然言語処理
"wine": {
"category": "socializing",
"category_id": 31,
"score": 0.0,
"topic_id": 611
}
"dragons": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 2137
},
"furry-fandom": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 48595
},
"legendarycreatures": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 10523
}
タグは、関連する情報(カテゴリ、人気度、およびカテゴリ/トピックのID番号)に関連付けられているトピックです。私たちは、取り上げているAPIがそれを処理して以来、各トピックの関連カテゴリを既に持っています。しかし、私たちの問題は、カテゴリーが広すぎて意味のある傾向を特定するのに33しかなく、トピックがオーバーラップ(例:ドラゴン/伝説の生き物)にあまりにも特異的で、約22,000人が多すぎます。
これはNLPが入る場所です。私たちは、「カテゴリ」ほど広くはないが、現在の話題ほど具体的ではない、ある種のスーパートピックのセットを作りたいと思っています。 "ドラゴンズ"と "レガンダリクリーチャー"を再び使用する例は、両方とも、他のものと同様に、「ファンタジー」というスーパートピックに適合します。
私たちはPythonを使用してデータを取得/処理していますが、これを引き続き使用したいと思います.NLPの実践経験はありません。
この点を念頭に置いて、私たちはいくつかの提案をして、この苦闘の領域を手助けしたいと思います。より良い方法がある場合、またはNLPで実現可能でない場合、私たちはそれらに公開しています。私たちが避けようとしているのは、分類のためのある種のテーブルをハードコーディングすることです。
TL:DR:現在のカテゴリよりも具体的ではあるが、現在のカテゴリよりも広範ではない適切な「スーパートピック」に22,000個のトピックを分類しようとしています。私たちはPythonを使っている間にNLPを使ってこれをやろうとしていますが、それについてはわからず、また提案にもオープンしています。
ここhttp://stackoverflow.com/a/22905260/610569 – alvas