2017-09-29 9 views
2

は、私がこのような文字列があるとします。この種の連結文字列を分割する方法: "howdoIsplitthis?"

"IgotthistextfromapdfIscraped.HowdoIsplitthis?" 

そして、私は生産したい:私はそれをどのように

"I got this text from a pdf I scraped. How do I split this?" 

行うことができますか?

+0

「wheeloffortune」 - >「ホイール」「オフ」「または」「曲を」? –

+0

@RobertLozyniak ['python-wordsegment'](https://github.com/grantjenks/python-wordsegment)の' segment'関数はそれを '['wheel'、 'of'、 'fortune']' 。ニースはない? –

答えて

2

これは、このタスクがword segmentationと呼ばれていることが判明し、それを行うことができますpython libraryがあります:

>>> from wordsegment import load, segment 
>>> load() 
>>> segment("IgotthistextfromapdfIscraped.HowdoIsplitthis?") 
['i', 'got', 'this', 'text', 'from', 'a', 'pdf', 'i', 'scraped', 'how', 
'do', 'i', 'split', 'this'] 
3

短い答え:現実的なチャンスはありません。

長い答え:

文字列に有効な単語を見つけることである文字列を分割するための唯一のヒント。だから、あなたは予想される言語の辞書を必要とするだけでなく、ルート単語だけでなく、すべての屈曲(正しい言語用語ですか?)。そして、文字列の文字と一致する一連の単語を見つけることができます。

+0

...と、おそらく「自動修正」と文法チェッカーを通してそれを渡す – theGleep

+0

[のpython-wordsegment](https://github.com/grantjenks/python-wordsegment/)ライブラリは、私はこの中で必要なものを行うことができます場合。 –

関連する問題