text-extraction

    2

    1答えて

    私はPDFBox 1.8.10をJavaで使って簡単なテキスト抽出方法を実装しました。私はPDFBox 2.0.2にライブラリをアップグレードする必要があるいくつかの理由の原因。 PDFTextStripper()メソッドが削除されたか、別のパッケージが新しいバージョンに置かれている可能性があります。この問題を解決する方法はありますか?または、PDFからテキストを取得する別の方法を提案できますか?

    0

    1答えて

    私は大きなpdf(スキャンされていない/ラスタライズされたpdf)ファイルからapache tikaを使用してテキストを抽出しようとしています。 しかし、元のテキスト(pdfから)と抽出されたテキストを比較してテキストを抽出した後、多くのテキストコンテンツが見つからないことがわかりました。私はsetMaxStringLength(-1)とBodyContentHandler(-1)を使って出力を最

    -2

    1答えて

    ここに最初のタイマーがあり、助けていただければ幸いです。 abcd.comで終わる可変長文字列の最初の7文字または8文字を取得するには、正規表現が必要です。以下の例: tpbjm01-re0.abcd.com xtsdjm01-re0.abcd.com lnd2j902-re1.abcd.com pqrjm02-re1.abcd.com py3jm01-re1.uk.abcd.com b

    0

    1答えて

    私は自分自身ですべてのハードワークをやってしまうことを避けるために、テキスト要約のためのlexrankアルゴリズムであらかじめ書かれたPythonコードを探しています。私はテキスト要約のためのAPIで構築されているのではなく、lexrankの手順を示す詳細なソースコードを探しています。私はそのようなコードをオンラインで見つけることができませんでした。ここでコードを見つけることができますか、コードを

    1

    1答えて

    標準偏差である "平均"と "標準偏差"を含むすべての要素をデータセットから抽出する必要があります。 偉業、列2、変数に書かれている方法の例。 目標>これを書いた要素だけを抽出しようとしています。 "tBodyAcc-mean()-Z" "tBodyAcc-std()-X" feat<-read.table("features.txt") 私は grep("mean"&"std",fea

    0

    1答えて

    私はPDFファイルからテキストを抽出しています。これはコードです: <?php require("PdfToText.php"); $file = 'SamplePF' ; $pdf = new PdfToText ("$file.pdf") ; echo ($pdf -> Text) ; ?> このクラスは一部のPDFファイルで正常に動作します。 このクラスに問題がある:それ

    1

    1答えて

    非常に長いテキストがあり、特定の単語の周りに特定の長さの文脈を抽出したいとします。たとえば、次のテキストでは、戦士という言葉の周りに8語を抽出したいと思います。 ........ ........ は...死にました。彼は...オッズに対する自由のために戦って、この場合、 ........ ........ 非常に勇敢な戦士ました結果は 彼は自由のために戦って、非常に勇敢な戦士 だっただろう fi

    -1

    2答えて

    テキストファイルからgetlineし、各行の最初の単語を抽出し、char配列 "op"に保存します。私は最初の単語の前に来るスペースに対処するのに苦労しています。テキストの最初の行は「素晴らしいソース」、2番目は「はい」、3番目は「クール」、4番目は「そうです"それは言葉の前にスペースを扱うのに苦労している。 infile.open( "vec.txt"); //define line point

    0

    1答えて

    私はPDFBoxを使用してPDF文書からテキストを抽出しています。テキストを取得しますが、すべてではありません(具体的には、タイトル/ヘッダーとフッターのテキストが欠落しているようです)。欠落している部分は画像ではなく、Foxt Readerでテキストビューを使用すると抽出されます。 バージョン1.8.12を使用しており、2.0.2のテストケースを作成して、それ以上のコンテンツを返すかどうかを確認

    -3

    1答えて

    私はpdf形式のcvを持っており、キーワードNLP(自然言語処理)を抽出したいと思います。添付されている画像があります。私はどのように行うのか分からない しかし、私は初心者だ私を助けてくださいおかげiTextSharpと呼ばれるオープンソースライブラリが imgimg2