私は文章に不確実性評価を与えることを目標に、NLTKと機械学習の初心者です。 例えば、This is likely caused by a..
ような文はThere is definitely something wrong with me
10とI think it could possibly happen
を受信するようにすることに関係なく、スコアシステム、「ある」、および「不明の分類の3NLTK Pythonでテキストの不確定性を検出する方法は?
スコアであろうと言う6の確実性スコアを受け取ることになります"私のニーズにも十分対応できます。
私はこれに関する既存の研究は見つかりませんでした。どのように私はこれにアプローチするのですか?私はいくつかの訓練されていないテキストデータを持っています。
"確信度"をどのように定義しますか?あなたが実装したいものを測定する以前の科学的出版物はありますか?注釈付きデータはありますか?そうでない場合は、以前の作業はあなたが行っていることに対して監督されていないアプローチを試みましたか?私はそれがNLPとMLの上でいくつかの基盤を得ることはより簡単だと思う=)http://www.nltk.org/book/とhttp://scikit-learn.org/stable/tutorial/ – alvas
私の理解から、スタンフォードのイメージングラボは、機械学習以外のアプローチでこの問題に近づいています。彼らは不確実な信号を特定するために「不確実性」を示す単語やフレーズのデータベースを構築しました。 https://rubinlab.stanford.edu/node/323 注釈付きのデータはありません。しかし、簡単に注釈を付けることができるレポートがあります。 –