2017-04-26 5 views
0

これは素人問題ですが、nltkを使って同義語をテキスト(またはその問題のリスト)から削除する方法はありますか?
70年代と70年代と
や犬を70_sと猟犬
を私は実際にいくつかの一般的なガイドラインを認めるか(私はいずれかを見つけることができませんでした)チュートリアルに私を指しているでしょう:私はまた違っ書かれた同じ言葉が好きなわけ同義語によって

ありがとうございましたnltkを使用して同義語を削除する

+2

1 - 同義語を取得するには、wordnet.synsetsを使用して同義語のセットを取得します。 2 - 異なる言葉を書かれた同じ言葉を得るには、データを浄化してください(句読点と茎を取り除いてください。実行して実行すると両方が実行に変換されます) – lordingtar

+0

私はそれを試みます。ありがとう –

+1

あなたの質問では、あなたは2つの非常に異なる、無関係のタスクを持っています。同じ日である「最後の日曜日」と「2011年4月23日」を正規化しようとしていますか?あなたが何を達成しようとしているかを述べれば、大いに助けになります。 @lordingtarの返答に関しては、品詞を特定した後でも、例えば名詞「ペン」を確認するなどして、複数のワードネットsyssetに単語が存在する可能性があることを警告してください(この問題は単語の曖昧さ回避と呼ばれます) 。 –

答えて

0

wordnet.synsetsを使用して重複したアイテムを削除してシノニムを取得し、重複を削除するためにリストを繰り返しただけです。私はリストを反復するよりも洗練された方法があると確信していますが、それは私のためにうまくいった。

関連する問題