pdftotextを使用してpdfから作成されたテキストファイルからPythonを使用してテキストを抽出しています。それは2000のファイルの1つであり、この特定のものでは、キーワードの行はEUで終わります。ラインの残りの部分は肉眼では空白なので、次のようになります。PDFtotext - コマンドラインでaacuteとして表示される空白
プログラムでは、通常、行末の末尾の空白を取り除き、その後の空白行は無視します。
この例では、テキストファイルで「EU」と同様にhtml(Simile Exhibit)の間に印刷されるときに表示される空白を保存しています。
コマンドラインにも印刷されていますが、ここにはaacuteという文字列があります。 [?]
これに対処する明白な方法は、accuteを検索して置き換えることだと思いました。私はコンパイルステートメントでこれを実行しようとしましたが、入力テキストをデコードする順列で演奏しました。
奇妙なことに、私が「\ 255」を印刷すると、私は急なアクシデントを取得しません、私はoの墓を取得します。
このような奇妙な組み合わせで、私は何か基本的なことを誤解しているようです。これを解明する方法のヒント?
多くのありがとうございます。
ありがとうございます。あなたは私の問題を分類した。私は "\ xA0"の検索語をコンパイルして、問題のNBSPを削除することができます。そして、私たちは送信せずにここで改行を使うことはできないようです。これは不快です!また、問題のあるコードを表示する方法を学び、Commmand Promptウィンドウの出力をテキストファイルとv.v.にリダイレクトするときにエンコードが変更されることを学びました。どうもありがとう。 – jobucks
@ jobucks:事実はどこですか? "検索用語を集めた"とは何ですか? re.compile()?? msgstr "ここで改行を送信することはできません"説明してください。また、 "\ 255"とo-graveについては何がありましたか? –