2013-07-14 5 views
6

私はnltkでPythonを使用しています。空白なしで英語のテキストを処理する必要がありますが、nltkのword_tokenize関数はこのような問題に対処できませんでした。どのように空白なしでテキストをトークン化するか。 Pythonにはどんなツールもありますか?空白区切り記号のない連続した単語をトークン化するには?

+0

はありませんか?ドメインとは何ですか? – Jared

+0

どのように単語を特定しますか? –

+0

文字で文字をスキャンし、可能なすべての連続文字の組み合わせをテストしていない限り、区切り文字が必要です – Yotam

答えて

1

私はそのようなツールを認識していませんが、問題の解決方法は言語によって異なります。

トルコ語では、入力テキストを文字単位でスキャンし、単語に文字を蓄積することができます。累積された単語が辞書から有効な単語を形成したと確信したら、それを別のトークンとして保存し、新しい単語を累積するためにバッファを消去して処理を続行します。

これは英語で試すことができますが、1つの単語の末尾が辞書の単語の始まりになる場合がありますが、これが原因で問題が発生することがあります。

1

多分Viterbi algorithmが役に立ちますか?確信はありませんが、手動で行うよりも良いでしょう。

別のSO質問(および他の高投票の回答)この答えは助けることができる:なぜ、何のスペースはhttps://stackoverflow.com/a/481773/583834

+0

うわー!それは私の予想されるアルゴリズムかもしれません。私はそれを読むでしょう。どうも! – VcamX

+0

ビタービの運命は? – arturomp

関連する問題