text-extraction

1熱

1答えて

英数字と一致させたいので、数字を強制的に含む必要があります。基本的には、アルファベット、数字、およびいくつかの特殊文字を組み合わせた注文番号を抽出したいと考えています。私は、次の正規表現 String invoiceRegex="(?<=((?i)(PO|P/O|ORDER)([\\s|.]{0,4})(number|no)?[|: -.]{0,10}))([\\dA-Z:-]*)"; を書きま

0熱

1答えて

Excelの文字列から年を抽出します

私は定期的なパターンのないカバレッジの日付のリストを持っています。例えば、私は次の文字列があります。 Available from 1951 until 1984; Available from 1964 volume: 2 issue: 1 until 2002 volume: 20 issue: 4; Available from 1958 volume: 1 issue: 1;

0熱

1答えて

Python - PDFを読む

私はいくつかのpdfファイルを持っています。私はテキストを抽出したいのですが、pyPDF2、pdfminerのような関連するすべてのライブラリを使っています。 tesseractとimagemagickも進めました。 Imagemagickは変換されたjpg形式のpdfページのほとんどを黒字化しますが、これはtesseractによって読み取られません。問題は、テキスト/段落が抽出されているうちに

0熱

1答えて

HTMLからテキストをNLTKより速く抽出しますか？

NLTKを使用してHTMLページからテキストを抽出しますが、わかりやすいテキスト解析のみを必要とします。単語数。高速です Pythonを使用してHTMLから可視テキストを抽出する方法はありますか？可視/不可視のノード、画像の代替テキストなど、最小限のレベルでHTML（および理想的にはCSS）を理解することはさらに優れています。

1熱

1答えて

iTextSharpを使用してPDFの特定の文字からコーディネーター（x、y）を取得するにはどうすればよいですか？

私はPDFとiTexhSharpを使用しています。これまでのところ、特定のエリアからデータを取得できました。しかし、私は希望の単語の最初の文字（または番号）のコーディネーターを見つけ、そのコーディネーターからコーディネーターを探して希望の単語の周りを切り詰めるようにすることでより柔軟にしたいと思います。誰かが私に短い事例を教えてもらえるといいですね。ありがとうございました。

0熱

1答えて

PDFBoxパーザは解析されているようですが、テキストストリッパーの空の出力

AndroidのPDFBoxを使用してドキュメントからテキストを抽出する際に問題が発生しました。しかしパーサーはうまく動作しているようです（少なくとも、それは私が意味するように解釈しています;「パースされたCOSObject」をグーグルで検索すると、残念なことに関連する結果は得られませんでした（いくつかのドキュメントではlogcatがスパムしていますこのputputをオフにする））。 getCha

0熱

1答えて

テキストファイルの各行の最初に引用符で囲まれた文字列を抽出します。

多くの行を含むテキストファイルを読みたいです。各行の先頭で、私は、引用符の間の文字列、昏睡、その後、残りの行を持っている、例： "CBL003","C3/C5 // <>SdcdUB","",0,1,"PfcdDT_gerergv","",0,"","",0,"","",0,"","",0,"","",0,"","",0,"","",0,"","",0,"","",0,"","", "CBL0

0熱

1答えて

Pythonでregexから1つの文字列を抽出するには？

私は、携帯電話からSMSを読み込み、いくつかの正規表現のパターンに基づいて情報を抽出するPythonを使用して、簡単なアカウントマネージャのアプリケーションを自分で作成しようとしています。私は複雑な正規表現パターンを書いてhttps://pythex.org/でテストしました。例：私はstr.extract（）メソッドではなく、単一の結果を取得を使用してPythonで同じことをしようとすると、

1熱

1答えて

Python regex - 文字列から値を抽出する

文字列からどのように取得し、最後からコンマまでのすべての値をreg式で指定するかを知りたいと思います。例の下を参照してください、私は変数に値"CA 0.810"を取得したいと思います：私は出力のみの下に取得する、しかし test = re.findall('([0-9]+)$',prue) print test ： prue ="VA=-0.850,0.800;CA=-0.863,0.800

1熱

1答えて

複数の文字列からすべての名前を取得する

複数の文字列とメッセージ本文からすべての名前（姓）を取得しようとしましたが、何とか1つの名前しか取得しませんでした。例：こんにちはマルク、ステファニーエル、ポール新しい仕事上のおめでとう！あなたは今朝気分が良くなったと思います！私が使用している正規表現： /(?<=^hi)(\W*(\w+ *\w*)+)*/gmi は、私の知る限りは、第一キャプショングループを理解するように繰り返