0
単純なtxtファイルから適切に単語をインポートし、分割するのは難しいです。python IO:テキストファイルからPython配列に単語を分割して、エスケープ文字、改行、16進値を避ける
Txtfile:
test1 file test1 test1
test2 test2
test 3 test3, test3.
test 4, test 4.
test 5
^Ltest 6.
シンプルfor lines in file: array.append(lines)
を行う場合、これは私が受け取る最後の配列です:
['test1 file test1 test1\xc2\xa0\n', 'test2 test2\xc2\xa0\n', 'test 3 test3, test3.\n', '\n', 'test 4, test 4.\n', '\n', '\n', 'test 5\n', '\n', '\n', '^Ltest 6.\xc2\xa0\n']
私はそれは私が一つのアイテムを持って、このようなもの、になりたいです実際の英語の単語またはエスケープ文字ごとに、また、\ x__ 16進数の部分文字列を含まない:
['test1', 'file', 'test1', 'test1', '\n', 'test2', 'test2', '\n', 'test', '3', 'test3', 'test3', '.', '\n', '\n', 'test', '4', 'test', '4', '.', '\n', '\n', '\n', 'test', '5', '\n', '\n', '\n', 'test 6', '.', \n']
ヘルプは本当にありがとう、感謝の前に。
're.match(r '[\ w \ n \ 。] + $ '、w)] – gdlmx
こんにちは、お手伝いをありがとうございます。これをどのように解釈するか少し具体的にお願いしますか? 're.match'は私にコンパイルエラーを与えます。 \ wは正規表現[a-zA-Z0-9_]を意味しますか? – user3107438
はい。 'import re'を実行しましたか? – gdlmx