2012-03-25 12 views
2

私は、PDF文書から指定されたテキストを抽出する予定のプロジェクトに取り組んでいます。私はこの種の抽出には経験がありません。 1つの問題は、ドキュメント内のすべてのテキストをダンプするだけではないということです。むしろ、pdfの特定のフィールドだけを抽出する方法はありますか?このようなものに使用できるPDFテンプレートの概念はありますか?テキスト抽出プロジェクト - 特定の行/項目のみをPDFから抽出するための最適なツールですか?

私はAppleのAutomatorを使用しようとしています。これはすべてのテキストを取得できますが、指定されたテキストは取得できません。理想的には、Pagesの誰かが慎重に30行のテキストを持ち、それらの行のうち20行を「カタログ項目」として指定し、Automatorスクリプトにこれらの20行だけを持たせたいと思います。

このために最適なワークフロー/抽出ツールに関するアイデアはありますか?私は、Apple Pages、Automator、Ruby、Pythonなどの消費者レベルのアイテムのみをスクリプト言語として使用することをお勧めします。 、これはあなたがルビーOrigamiを使用することができます

+1

なぜ人々は投票に投票するのだろうか? – timpone

+0

抽出するPDF文書は、タグ付きPDF形式ですか? – alexis

+0

おそらくタグ付けされているかどうかを選択できます。これらは、エンドユーザーが作成し、どのようにタグ付きのpdfがどれくらいうまく(または、あれば)サポートされているかわからない文書です。これはスクラッチからの解決策であり、あらゆるアイデアが評価されています。 – timpone

答えて

0

をあるAppleのページでサポート方法もわからない -

THX

編集#1 は、これを行うための一つの方法であるかもしれないタグ付きPDFのように見えます を解析し、PDFドキュメントを偽造するように設計されたフレームワーク、またはPython相当:Origapy、RubyベースのOrigami用の単純なPython インターフェイス。

+0

thx - 私はOrigamiを使用しましたが、タグ付きPDFを処理しているとは思わない – timpone

0

ルビーについては、pdf-readerを試して、PDFを解析し、メタデータとコンテンツの両方にアクセスすることができます。あなたが興味を持っている特定のアイテムを抽出することは別の話ですが、それをやり遂げる方法は、あなたが期待しているデータの形式に大きく依存します。

+0

thx for answer - 「別の話」について合意しました。現時点では、私たちはフォーマットのコントロールを持っているので、Apple Pagesの自動テキスト抽出システムの手の問題について最高のストーリーを作りたいと思っています – timpone

1

Pythonでは、おそらくPDFMinerが最適です。すべてのテキスト文字列の座標を抽出することができますので、フォーム内の四角形を自分で作成し、それらの中にあるものを選ぶことができます。それはかなり低いレベルですが、PDFは残念ながらかなり低いレベルのフォーマットです。

PDFの構造について多くのことが分かっていない限り、APIとドキュメントはほとんど見つからないことに注意してください。 SOを含め、使用例を見てください。

関連する問題