私は、たとえば、この文字列を使用してテキストをトークン化する必要があります。"hello 502world a0.0.3b .1.4 <sub>5</sub>"
どのように文字列に文字列内のすべての数字を回すためのPython
私はそれを有効にする:"hello NUMworld aNUMb NUM <sub>5</sub>"
ていることに注意してください0.0.3と.1.4もNUMに変わる502に加えてNUMに変わりますが、サブの内部では同じ数にしたいと思います。
テキストは番号がサブ の間にある場合は、再度ので、それは数にとどまるべきであること、それ
お知らせに非ASCII文字を持っています。
これは、テキストがhereの例です。単純な正規表現は、トリックを行うだろう
hello NUMworld aNUMb NUM <sub>5</sub>
あなたが本当にそれを "トークン化" されていません出力はトークンのリストではないため、変更された文字列です。だから...正規表現を使って文字列を修正するだけです。トークン化したい場合、私の答えは異なるかもしれません。 – RobertB
私はすでにすべてのことをtoknaizedしていますが、少しフィルタリングする必要があります – Yonlif