text-extraction

    1

    1答えて

    英数字と一致させたいので、数字を強制的に含む必要があります。 基本的には、アルファベット、数字、およびいくつかの特殊文字を組み合わせた注文番号を抽出したいと考えています。私は、次の正規表現 String invoiceRegex="(?<=((?i)(PO|P/O|ORDER)([\\s|.]{0,4})(number|no)?[|: -.]{0,10}))([\\dA-Z:-]*)"; を書きま

    0

    1答えて

    私は定期的なパターンのないカバレッジの日付のリストを持っています。例えば、私は次の文字列があります。 Available from 1951 until 1984; Available from 1964 volume: 2 issue: 1 until 2002 volume: 20 issue: 4; Available from 1958 volume: 1 issue: 1;

    0

    1答えて

    私はいくつかのpdfファイルを持っています。私はテキストを抽出したいのですが、pyPDF2、pdfminerのような関連するすべてのライブラリを使っています。 tesseractとimagemagickも進めました。 Imagemagickは変換されたjpg形式のpdfページのほとんどを黒字化しますが、これはtesseractによって読み取られません。 問題は、テキスト/段落が抽出されているうちに

    0

    1答えて

    NLTKを使用してHTMLページからテキストを抽出しますが、わかりやすいテキスト解析のみを必要とします。単語数。 高速です Pythonを使用してHTMLから可視テキストを抽出する方法はありますか? 可視/不可視のノード、画像の代替テキストなど、最小限のレベルでHTML(および理想的にはCSS)を理解することはさらに優れています。

    1

    1答えて

    私はPDFとiTexhSharpを使用しています。これまでのところ、特定のエリアからデータを取得できました。しかし、私は希望の単語の最初の文字(または番号)のコーディネーターを見つけ、そのコーディネーターからコーディネーターを探して希望の単語の周りを切り詰めるようにすることでより柔軟にしたいと思います。誰かが私に短い事例を教えてもらえるといいですね。ありがとうございました。

    0

    1答えて

    AndroidのPDFBoxを使用してドキュメントからテキストを抽出する際に問題が発生しました。しかしパーサーはうまく動作しているようです(少なくとも、それは私が意味するように解釈しています;「パースされたCOSObject」をグーグルで検索すると、残念なことに関連する結果は得られませんでした(いくつかのドキュメントではlogcatがスパムしていますこのputputをオフにする))。 getCha

    0

    1答えて

    多くの行を含むテキストファイルを読みたいです。各行の先頭で 、私は、引用符の間の文字列、昏睡、その後、残りの行を持っている、例: "CBL003","C3/C5 // <>SdcdUB","",0,1,"PfcdDT_gerergv","",0,"","",0,"","",0,"","",0,"","",0,"","",0,"","",0,"","",0,"","",0,"","", "CBL0

    0

    1答えて

    私は、携帯電話からSMSを読み込み、いくつかの正規表現のパターンに基づいて情報を抽出するPythonを使用して、簡単なアカウントマネージャのアプリケーションを自分で作成しようとしています。 私は複雑な正規表現パターンを書いてhttps://pythex.org/でテストしました。 例:私はstr.extract()メソッドではなく、単一の結果を取得を使用してPythonで同じことをしようとすると、

    1

    1答えて

    文字列からどのように取得し、最後からコンマまでのすべての値をreg式で指定するかを知りたいと思います。例の下を参照してください、私は変数に値"CA 0.810"を取得したいと思います:私は出力のみの下に取得する、しかし test = re.findall('([0-9]+)$',prue) print test : prue ="VA=-0.850,0.800;CA=-0.863,0.800

    1

    1答えて

    複数の文字列とメッセージ本文からすべての名前(姓)を取得しようとしましたが、何とか1つの名前しか取得しませんでした。 例: こんにちはマルク、ステファニーエル、ポール 新しい仕事上の おめでとう! あなたは今朝気分が良くなったと思います! 私が使用している正規表現: /(?<=^hi)(\W*(\w+ *\w*)+)*/gmi は、私の知る限りは、第一キャプショングループを理解するように繰り返