text-extraction

2熱

1答えて

PDFBox 2.0.2でテキストを抽出するクラスがありませんPDFTextStripper（）

私はPDFBox 1.8.10をJavaで使って簡単なテキスト抽出方法を実装しました。私はPDFBox 2.0.2にライブラリをアップグレードする必要があるいくつかの理由の原因。 PDFTextStripper（）メソッドが削除されたか、別のパッケージが新しいバージョンに置かれている可能性があります。この問題を解決する方法はありますか？または、PDFからテキストを取得する別の方法を提案できますか？

0熱

1答えて

Apache Tikaは大規模なpdfからフルテキストの内容を抽出できませんでした

私は大きなpdf（スキャンされていない/ラスタライズされたpdf）ファイルからapache tikaを使用してテキストを抽出しようとしています。しかし、元のテキスト（pdfから）と抽出されたテキストを比較してテキストを抽出した後、多くのテキストコンテンツが見つからないことがわかりました。私はsetMaxStringLength(-1)とBodyContentHandler(-1)を使って出力を最

-2熱

1答えて

特定の文字で終わる文字列の最初の7文字または8文字を抽出する正規表現が必要です

ここに最初のタイマーがあり、助けていただければ幸いです。 abcd.comで終わる可変長文字列の最初の7文字または8文字を取得するには、正規表現が必要です。以下の例： tpbjm01-re0.abcd.com xtsdjm01-re0.abcd.com lnd2j902-re1.abcd.com pqrjm02-re1.abcd.com py3jm01-re1.uk.abcd.com b

0熱

1答えて

Lexrankテキスト要約アルゴリズムのソースコード（Python）

私は自分自身ですべてのハードワークをやってしまうことを避けるために、テキスト要約のためのlexrankアルゴリズムであらかじめ書かれたPythonコードを探しています。私はテキスト要約のためのAPIで構築されているのではなく、lexrankの手順を示す詳細なソースコードを探しています。私はそのようなコードをオンラインで見つけることができませんでした。ここでコードを見つけることができますか、コードを

1熱

1答えて

（Grep）または（str_extract_all）を使用するクリーニングデータ

標準偏差である "平均"と "標準偏差"を含むすべての要素をデータセットから抽出する必要があります。偉業、列2、変数に書かれている方法の例。目標>これを書いた要素だけを抽出しようとしています。 "tBodyAcc-mean()-Z" "tBodyAcc-std()-X" feat<-read.table("features.txt") 私は grep("mean"&"std",fea

0熱

1答えて

phpのpdfからテキストを抽出するすべてのPDFファイルで機能しない

私はPDFファイルからテキストを抽出しています。これはコードです： <?php require("PdfToText.php"); $file = 'SamplePF' ; $pdf = new PdfToText ("$file.pdf") ; echo ($pdf -> Text) ; ?> このクラスは一部のPDFファイルで正常に動作します。このクラスに問題がある：それ

1熱

1答えて

文中の単語を囲む文脈を抽出する

非常に長いテキストがあり、特定の単語の周りに特定の長さの文脈を抽出したいとします。たとえば、次のテキストでは、戦士という言葉の周りに8語を抽出したいと思います。 ........ ........ は...死にました。彼は...オッズに対する自由のために戦って、この場合、 ........ ........ 非常に勇敢な戦士ました結果は彼は自由のために戦って、非常に勇敢な戦士だっただろう fi

-1熱

2答えて

文字列を使用しないでgetlineから文字配列を取り出す

テキストファイルからgetlineし、各行の最初の単語を抽出し、char配列 "op"に保存します。私は最初の単語の前に来るスペースに対処するのに苦労しています。テキストの最初の行は「素晴らしいソース」、2番目は「はい」、3番目は「クール」、4番目は「そうです"それは言葉の前にスペースを扱うのに苦労している。 infile.open（ "vec.txt"）; //define line point

0熱

1答えて

PDFBox getTextが表示されているテキストをすべて返さない

私はPDFBoxを使用してPDF文書からテキストを抽出しています。テキストを取得しますが、すべてではありません（具体的には、タイトル/ヘッダーとフッターのテキストが欠落しているようです）。欠落している部分は画像ではなく、Foxt Readerでテキストビューを使用すると抽出されます。バージョン1.8.12を使用しており、2.0.2のテストケースを作成して、それ以上のコンテンツを返すかどうかを確認

-3熱

1答えて

どうすればpdfファイルasp.net c＃からキーワードを抽出できますか？

私はpdf形式のcvを持っており、キーワードNLP（自然言語処理）を抽出したいと思います。添付されている画像があります。私はどのように行うのか分からないしかし、私は初心者だ私を助けてくださいおかげiTextSharpと呼ばれるオープンソースライブラリが imgimg2