2016-03-28 12 views
1

"たくさん"、 "少数"、 "たくさん"などの修飾語を分類できる必要があるプロジェクトに取り組んでいます。 、「いくつかの」などの最低限の割合に例えば"A lot"、 "A few"、 "some"などの単語を簡単に分類する

"a lot" - >80%

今私は、単にこれらの修飾子や数値などに関する大規模な辞書を作成すると思っています

a few - >15%

some - >10%

lots - >80%

しかし、これは非常に手間がかかり、おそらくすべてのシナリオをカバーしません。これを行う簡単な方法はありますか?この目的のために既に存在するNLPツールがありますか?好ましくはPython(または既にデータベースがありますか?)です。

答えて

1

NLPでは実際には類似した問題はありません。 Word2Vecを使用し、各単語の単語埋め込みを生成することをお勧めします。次に、あなたは各単語のペアの距離を比較して、あなたの言葉よりも良い単語ができるかどうかを見ることができます。単語埋め込みの有効性を向上させる鍵は、十分に大きく、問題に近い領域を指定するコーパスを選択することです。

+0

「いくつか」を「15%」にマップし、次に「Word2Vec」のような「少々」と似た単語を探しますか? – abagshaw

+0

私はあなたがword2vecによって "少し"、 "少し"のベクトルを得ることができ、ティが機能するかどうかを見ることを意味します。ちょうどアイデアと試してみることができます。 –

+0

それは面白いです。私はそのショットを与えるでしょう。コーパスやデータ収集があるかどうか知っていますか?「ロット」のような100の最も一般的な単語、それらをいくつかの数値に関連付ける「少数」、出発点があればそこからword2vecを使うことができました。 – abagshaw

関連する問題