0
これは素人問題ですが、nltkを使って同義語をテキスト(またはその問題のリスト)から削除する方法はありますか?
70年代と70年代と
や犬を70_sと猟犬
を私は実際にいくつかの一般的なガイドラインを認めるか(私はいずれかを見つけることができませんでした)チュートリアルに私を指しているでしょう:私はまた違っ書かれた同じ言葉が好きなわけ同義語によって
。
ありがとうございましたnltkを使用して同義語を削除する
1 - 同義語を取得するには、wordnet.synsetsを使用して同義語のセットを取得します。 2 - 異なる言葉を書かれた同じ言葉を得るには、データを浄化してください(句読点と茎を取り除いてください。実行して実行すると両方が実行に変換されます) – lordingtar
私はそれを試みます。ありがとう –
あなたの質問では、あなたは2つの非常に異なる、無関係のタスクを持っています。同じ日である「最後の日曜日」と「2011年4月23日」を正規化しようとしていますか?あなたが何を達成しようとしているかを述べれば、大いに助けになります。 @lordingtarの返答に関しては、品詞を特定した後でも、例えば名詞「ペン」を確認するなどして、複数のワードネットsyssetに単語が存在する可能性があることを警告してください(この問題は単語の曖昧さ回避と呼ばれます) 。 –