は、私はいくつかのチャットユーザーデータを持ち、様々なカテゴリーに分類、問題は、以下の例を参照してください、アルゴリズム生成カテゴリが多いです本質的にフレーズ)がテキスト自体から抽出されます。 私のデータに基づいて、およそ4,500のユニークなカテゴリーを持つ10,000のメッセージがあります。 このような場合に適切な予測精度が得られるアルゴリズムはありますか?NLP&MLテキスト抽出
0
A
答えて
1
さて、私は常習的にOpenNLPのDocumentCategorizerをこのようなタスクに使用していますが、StanfordNLPのコアはいくつか似たようなことをすると思います。 OpenNLPはこのために最大エントロピーを使いますが、それを行う方法はたくさんあります。
最初に、ユニークなラベルの量について考えてみましょう。基本的には、クラスごとにいくつかのサンプルしかありません。それは一般的には悪いことです。重複や不一致のためにあなたが意味するようにしようとすると、あなたのクラシファイアはそれが何であっても魅力的な結果を出すでしょう。それでは、これまで私が似たような状況で行ってきたことです:別々の概念を別々の主題分類器に分け、それぞれに最高のスコアを組み立てます。たとえば、上記で書いた内容に基づいて、1つの分類モデルで外部または内部を検出し、別の分類モデルでCRICKETとCRAYKETを比較することができます。その後、実行時に、両方の分類子にテキストを渡して、それぞれに最適なヒットを取り、単一のカテゴリを組み立てます。擬似コード:
DoccatModel outOrIn = new DoccatModel(modelThatDetectsOutsideOrInside);
DoccatModel cricketMode = new DoccatModel(modelThatDetectsPlayingOrWatchingCricket)
String stringToDetectClassOf = "Some dude is playing cricket outside, he sucks";
String outOrInCat = outOrIn.classify(stringToDetectClassOf);
String cricketModeCat = cricketMode .classify(stringToDetectClassOf);
String best = outOrInCat + " " + cricketModeCat ;
私は考えています。 その他のランダムな考え: - テキストインデックスを使用して、戻ってくるデータの量を調べて、カテゴリを分割する方法を見つけ出します。 - あなたがしたい各モデル
のための数百基の例あなたはJavaでこれをやっている場合は、私はあなたにOpenNLPからいくつかのコード例を与えたい場合は私に知らせて
関連する問題
- 1. NLP - テキストからカテゴリ/タグを抽出する
- 2. NLP - Pythonで情報抽出(スペイシー)
- 3. 抽出テキスト
- 4. 抽出テキスト
- 5. 抽出テキスト
- 6. 抽出テキスト
- 7. itextsharpテキスト抽出
- 8. 抽出テキスト
- 9. 法的テキストのNLP?
- 10. Perlテキストの抽出
- 11. CSVテキスト抽出Beautifulsoup
- 12. NLP文からの辞書単語を抽出する
- 13. JavaベースのWebアプリケーションのNLPライブラリ(件名抽出+感情分析)
- 14. Stanford Core NLPを使用したカスタムリレーション抽出モデル
- 15. SparkR ML分類関数からクラス確率を抽出する
- 16. スパーク:パイプラインモデルからのMLロジスティック回帰モデルのサマリーの抽出
- 17. スタンフォードコアnlp java出力
- 18. 抽出テキスト(DOCXない)
- 19. 抽出文字列テキストに
- 20. DOMパーサーでテキストを抽出
- 21. Javaメソッド・テキストの抽出
- 22. テキスト抽出 - 行単位
- 23. テキスト処理 - クリアテキストの抽出
- 24. stanford-nlp OpenIEが文章から間違った情報を抽出すると、スタンフォード・NLPでOpenIEシステムで
- 25. nlpを使ってサブジェクト動詞オブジェクトを抽出する方法java
- 26. NLPを使用してチェックインとコメントから情報を抽出する
- 27. Java、Stanford NLP:パーサーから特定の音声ラベルを抽出する
- 28. NLPライブラリを使って文から述語とサブジェクトを抽出するには?
- 29. SWFからのテキストの抽出
- 30. pdfからcへのテキストの抽出#
そのようなすべての例がありますか? (つまり、カテゴリは大部分が「抽出された」、またはメッセージに含まれています)。 –
はい、テキスト自体から抽出されます。 –