2012-01-20 2 views
5

品詞タグ付けの正確さを向上させるために、単語のコンテキストを使用するためのいくつかの一般的または推奨の技術はありますか?品詞タグ付けを改善するためのコンテキストの使用

は、私がリンク上でゴルフをした:私は文を持っている場合たとえば

「リンク」という単語は、単数形(ゴルフ場)または複数形のいずれかです。私はこの文章をいくつかの文法チェッカーで試してみました。私はリンクをクリックした

問題は、彼らはまた、この文が有効であったと考えられています。

正しい品詞を推測するために(演奏ゴルフ対クリック)コンテキストを使用するための良い方法はありますか?

ありがとうございます!

答えて

2

"リンク"が "ゴルフコース"であるか "参照"であるかを判断することは、という単語感知曖昧さ回避と呼ばれるタスクです。ここで がWord-sense disambiguation上のWikipediaの記事は、品詞のためのタグ付け関係についてこう言われる、

を任意の実際のテストでは、品詞タグ付けとセンスタグ付けが非常に密接に各潜在的に作る制約と関連していますもう片方。また、これらのタスクを一緒にするかデカップリングするかの問題はまだ満場一致で解決されていませんが、最近、科学者はこれらのことを別々にテストする傾向にあります(例えば、Senseval/SemEval競技では品詞の入力として曖昧さを排除します)。 単語の曖昧さの問題と品詞のタグ付けの問題を比較することは有益です。両方とも、曖昧さや言葉によるタグ付け、感覚や品詞によるものである。しかし、主に言葉の品詞が主にすぐ隣の1〜3語によって決定されるため、一方の語の感覚は遠く離れた言葉によって決定されるため、一方のために使用されるアルゴリズムは他方にとってはうまく機能しない傾向がある。品詞タグ付けアルゴリズムの成功率は、教師付き学習による単語の曖昧さの75%未満の精度と比較して、現在のところ、WSDの成功率よりもはるかに高く、最先端技術は約95%以上の精度である。これらの数字は英語の典型的なものであり、他の言語のものと大きく異なる場合があります。

WSDを使用してPOSタグを通知する作業(私はPOSタグを使用してWSDに通知する作業が標準である)には気付きません。精度はすでに高いので、小さくしてください。 ToutanovaのCRFタガーの機能として実装できます。

関連する問題