2
中国語と英語の両方を含むテキストをトークン化すると、英語の単語が文字に分割されます。次のコードを考えてみましょう:中国語と英語の両方でテキストをトークン化すると、英語の単語が文字に間違って分割される
出力は哈佛大学 的 M e l i s s a D e l l
になります。この動作を変更するにはどうすればよいですか?
中国語と英語の両方を含むテキストをトークン化すると、英語の単語が文字に分割されます。次のコードを考えてみましょう:中国語と英語の両方でテキストをトークン化すると、英語の単語が文字に間違って分割される
出力は哈佛大学 的 M e l i s s a D e l l
になります。この動作を変更するにはどうすればよいですか?
nltk
については話すことができませんが、この文章を実行するとStanford CoreNLPはこの動作をしません。
あなたはあなたの例で、このコマンドを発行する場合は、適切なトークン化を得る:
java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-chinese.properties -file example.txt -outputFormat text
あなたはPythonの経由スタンフォードCoreNLPにアクセスしたい場合はstanza
を使用してに見たいと思うかもしれません。