pdf-scraping

    0

    1答えて

    私はpdfからいくつかのデータを掻き出しました。それはXMLに似たデータを持っていて、このようなものです。 "(1) Data-field-1 (3) Data-field-3 (5) Data-field-5; (1) Data-field-1 (2) Data-field-2 (3) Data-field-3 (5) Data-field-5; ; (2) Data-field-2 (3) D

    4

    1答えて

    置き換える必要のあるテキストのPDFファイルがあります。具体的には、テキストを翻訳し、翻訳されたバージョンに置き換える必要があります。 PDF構造の残りの部分は元のままにしておくことが重要です。テキストはPDFで利用可能であり、OCrのような技術は必要ないことに注意してください。また、フォントやその他のテキスト属性が保持されているといいでしょう。 編集しやすい形式(CSVなど)でテキストを抽出し、

    4

    3答えて

    大きなPDF文書をファイルの内容に基づいて小さなファイルに分割する必要があります。 BCL easyPDFを使用してPDFファイルを操作します。 easyPDFはページ番号に基づいてpdfドキュメントを分割できますが、ファイルの内容に基づいてドキュメントを分割することはできません。また、それは検索機能を持っていません(私が間違っていると誰かに知らせてください)。 これで、.netを使用してPDFフ

    -2

    3答えて

    基本的には行ヘッダーの下にPDFデータがありますか、私が言っていることを単純化するために、PDFファイルからデータベースを作成したいと思います。有権者数に応じて40ページ。アクセス/エクセル/ SQLに私はボックスからデータを抽出したい(またはあなたがそれらを言って何でも) A page of pdf file I am talking about 各ボックスから 名前は、名前欄の下に 関係を表示

    4

    5答えて

    PDFからテキストを抽出するための良いライブラリはありますか?私がしなければならないなら、私はそれを支払うつもりです。 C#または従来のASP(VBScript)で動作するものが理想的で、PDFからページを分離する必要があります。 This questionは、特にpdftotextという興味深いものがありましたが、できれば外部のコマンドラインアプリを呼び出すことは避けてください。ここで

    5

    2答えて

    私はいくつかのpdfレポートの中のテーブルからデータを抽出しようとしています。 pdftoolsと同様のパッケージを使っていくつかの例を見てきましたが、私はテキストの取得に成功しましたが、テーブルを抽出したいだけです。 テーブルを認識して抽出するためにRを使用する方法はありますか?

    -1

    1答えて

    pdfには行の後にデータが区切られ、見出しとそれに対応する値が含まれている行の後に表がありますが、整然とした方法で取得できませんむしろ、私は完全な列のヘッダーをtext.Iとして取得して、行の後ろに現行の行とそれに対応する値を関連付けることができます。 fp = open(my_file, "rb") parser = PDFParser(fp) document = PDFDocument(