私はnltkでPythonを使用しています。空白なしで英語のテキストを処理する必要がありますが、nltkのword_tokenize関数はこのような問題に対処できませんでした。どのように空白なしでテキストをトークン化するか。 Pythonにはどんなツールもありますか?空白区切り記号のない連続した単語をトークン化するには?
6
A
答えて
1
私はそのようなツールを認識していませんが、問題の解決方法は言語によって異なります。
トルコ語では、入力テキストを文字単位でスキャンし、単語に文字を蓄積することができます。累積された単語が辞書から有効な単語を形成したと確信したら、それを別のトークンとして保存し、新しい単語を累積するためにバッファを消去して処理を続行します。
これは英語で試すことができますが、1つの単語の末尾が辞書の単語の始まりになる場合がありますが、これが原因で問題が発生することがあります。
1
多分Viterbi algorithmが役に立ちますか?確信はありませんが、手動で行うよりも良いでしょう。
別のSO質問(および他の高投票の回答)この答えは助けることができる:なぜ、何のスペースはhttps://stackoverflow.com/a/481773/583834
関連する問題
- 1. read_csvで区切り記号をより柔軟な空白にするには?
- 2. アスペルの単語区切り記号を定義する方法は?
- 3. Scikit Learn - CountVectorizerを使用して文字列区切り記号から単語トークンを抽出する
- 4. diffで単語区切り記号としてカンマを使用する
- 5. テーブルを更新して、テキスト列の単語数を区切り記号(、)で区切って設定します。
- 6. 空白の単語をCSSで区切らないでください
- 7. 区切り記号として区切り記号の前または後にカンマ区切りでカンマを区切る方法
- 8. キーマッチに基づいて区切り記号で値を連結
- 9. viの単語区切り記号からダッシュ( - )を除外する
- 10. 豚を使用してカスタム区切り記号(|)で単語をカウント
- 11. AS3 - 空白とハッシュで区切られた単語を検索する
- 12. 空白で区切られた単語を削除する正規表現コード?
- 13. VIMの "$"ドル記号区切り記号を隠します
- 14. 空白を切り捨て、ハッシュ記号を無視する
- 15. トークン区切りバッチファイルでパーセント記号を使用
- 16. Pythonの(ロケール)桁区切り記号をアラビア語のUnicode区切り記号に変更するにはどうすればよいですか?
- 17. leetcode 139.単語区切り
- 18. GNU Make:リストに参加し、区切り記号で区切るには?
- 19. 略語とアポストロフィを除いた単語と句読点を区切ってテキストをトークン化する
- 20. 区切り記号で区切り文字を持つPandas groupby
- 21. 長い単語だけで単語区切りを使用して、asp:labelテキストの行を区切りますか?
- 22. ページ区切り角記号付きの語義者
- 23. 空白で区切られた単語に正規表現が一致しない
- 24. 崇高な文章:単語の区切り記号としてドットを付ける?
- 25. カンマで区切った数字を桁区切り記号として記録する方法は?
- 26. 複数の単語を1つのセルに区切る方法区切りなしで区切る方法
- 27. アルファベットの空白またはコンマで区切られたトークンのリスト
- 28. スワップポストリクエストエンコーディングプラス記号が空白になる
- 29. 区切り文字を区切り記号で区切ってセルを区切ります
- 30. 連続した区切り文字でstrtok_sの振る舞い
はありませんか?ドメインとは何ですか? – Jared
どのように単語を特定しますか? –
文字で文字をスキャンし、可能なすべての連続文字の組み合わせをテストしていない限り、区切り文字が必要です – Yotam