2016-03-24 11 views
0

私はNLPの新人です。私はNLPクラスの練習問題を解決する必要があります。基本的には、(CRF、ABCなど)の略語と他のタイプの大文字の単語(FOOD、HOUSE)を含む生テキストを受け取り、それらを分類する必要があります。略語と単純に大文字の単語を区別しますか?

どこから始めたらいいのかわかりませんが、いくつかのアルゴリズムを教えていただけますか?問題を解決するのに役立つ確率的アプローチ

答えて

0

"regular"の英語の単語(Linux、WordNetなどの場合はdictのスペルを含む)の辞書を使用し、そこに単語が含まれているかどうかを確認します。次に、品詞タグを使用します。単語が名詞でない場合、頭字語である可能性は低いです。最後に、既存のソフトウェアをチェックします。頭字語Finder、および論文(Google Scholarでは、「頭字語の検出」を検索します)。

0

fnlと一致します。共通の英語を含む品詞を使用し、テキストデータセットを訓練する。自動的に 'None'、 'Verb'、 'Abbreviation'とマークされます。多くの種類のposがあり、テキストデータに近い領域を持つものを選ぶことができればよいでしょう。 たとえば、http://www.cs.cmu.edu/~ark/TweetNLP/はつぶやきのposを提供します。

+0

私は、略語と名詞しか持たない場合にposタグャーを使用するという考え方には同意しますが、ローマ字(I、V、VI)のような偽省略形や、アルファベット(A型肝炎、B型肝炎またはC型肝炎)。 posタグャーもこれらのケースを区別するのに十分でしょうか? –

関連する問題