2017-05-07 4 views
0

私は文を理解し、その情報を鍵の値のペアに解読しています。例えば意味によって単語を正規化します

{ "product" : "milk" , "money": "200 usd" } 

{ "product" : "chair" , "cost": "200 usd" } 

{ "product" : "chair" , "price": "200 usd" } 

今、このJSONアウトプットのためのような は、私はそれを正常化しない限り、使用することは容易ではありません。 私はお金を意味するすべての単語を普通の言葉のお金に標準化したいと思います。

{ "product" : "milk" , "money": "200 usd" } 

{ "product" : "chair" , "money": "200 usd" } 

{ "product" : "chair" , "money": "200 usd" } 

は今、すべては

お金は、コスト、価格は全て実際のお金を意味するわけ。

これを正規化する方法はありますか? nltkで検索したところ、ステマーとレミタイザーがありました。しかし、それは私の意味をするようには思われません。誰かが案内できますか?

答えて

1

NLTKを使用して、WordNet synonym setで各キーを調べ、正規のエントリ、たとえばそれぞれ最初のエントリを取ることができます。

コーパスがかなり一般的であれば十分でしょうが、多くの専門用語が必要な場合は、この問題を解決するために独自の単語埋め込みやクラスターを生成する必要があります。

+1

良い提案。 OPは特定のドメインで動作している可能性が高いため、既に対象とする「正式エントリ」のリストを持っている可能性があります。 – alexis

関連する問題