2016-08-19 4 views
1

私は文章に不確実性評価を与えることを目標に、NLTKと機械学習の初心者です。 例えば、This is likely caused by a..ような文はThere is definitely something wrong with me 10とI think it could possibly happenを受信するようにすることに関係なく、スコアシステム、「ある」、および「不明の分類の3NLTK Pythonでテキストの不確定性を検出する方法は?

スコアであろうと言う6の確実性スコアを受け取ることになります"私のニーズにも十分対応できます。

私はこれに関する既存の研究は見つかりませんでした。どのように私はこれにアプローチするのですか?私はいくつかの訓練されていないテキストデータを持っています。

+1

"確信度"をどのように定義しますか?あなたが実装したいものを測定する以前の科学的出版物はありますか?注釈付きデータはありますか?そうでない場合は、以前の作業はあなたが行っていることに対して監督されていないアプローチを試みましたか?私はそれがNLPとMLの上でいくつかの基盤を得ることはより簡単だと思う=)http://www.nltk.org/book/とhttp://scikit-learn.org/stable/tutorial/ – alvas

+0

私の理解から、スタンフォードのイメージングラボは、機械学習以外のアプローチでこの問題に近づいています。彼らは不確実な信号を特定するために「不確実性」を示す単語やフレーズのデータ​​ベースを構築しました。 https://rubinlab.stanford.edu/node/323 注釈付きのデータはありません。しかし、簡単に注釈を付けることができるレポートがあります。 –

答えて

3

私の知る限り、既存のnlpツールキットにはこのような機能はありません。

あなた自身のモデルを訓練しなければならず、そのためにトレーニングデータが必要です。各センテンスの不確実性ラベルを含むデータセットがある場合は、そのテキスト分類モデルを訓練することができます。

ラベルデータがない場合は、不確定性/ヘッジの検出に関するCoNLL 2010 Shared taskがあり、そのデータセットが利用可能である必要があります。 CoNLL 2010データセットにアクセスして、簡単なテキスト分類子を訓練し、訓練されたモデルを自分のデータセットで使用することができます。あなたのデータの性質がそれほど変わらないと仮定すると、これはうまくいくはずです。

テキスト分類の場合は、単純にscikit-learnライブラリを使用することができます。

あなたはまた、以下の参考文献が有用見つけるかもしれない:

関連する問題