2017-09-25 11 views
0

手袋の中に、「。」のような句読点があります。単語としてカウントされます。しかし、米国の場合。そしてu.k. .itは分離できません。どのように正しくグローブのためのPythonでテキストを分割するには?

たとえば、文があります。

彼は私たちに起こっている。

で何手袋たい[「彼」、 'の、 『行く』、 『に』、 『私たち』、「」] はに何か良い方法があります。それを分割する?

+0

あなたは配列の各値を繰り返し処理し、 '.'の存在をチェックすることができます。もしあなたが探しているものなら、配列自体から '.'を取り除く' us'に 'u.s'を変換するように、あなたの必要に応じてそれを削除します。 – Anuj

答えて

1

トレーニングで使用した入力が分割されたのと同じ方法で入力を分割する必要があります。事前に訓練されたベクトルを使用していて、それらがどのように生成されたかわからない場合は、独自のベクトルを訓練するか、作成者に入力をトークン化した方法を尋ねることができます。

また、最後の単語が省略語であっても、文章は二重の期間で終わらないことに注意してください。

wrong: He's going to the U.S.. 
right: He's going to the U.S. 

hereの詳細な説明を読むことができます。

また、現代英語では略語でピリオドを使用しないことがよくあります - 例として、The Guardianにはピリオドのない「US News」と「UK News」のセクションがあります。実際の問題として、特定のデータセットに多くの問題が生じない限り、この特定の問題について心配する必要はないと思います。

関連する問題