私は、PDF文書から指定されたテキストを抽出する予定のプロジェクトに取り組んでいます。私はこの種の抽出には経験がありません。 1つの問題は、ドキュメント内のすべてのテキストをダンプするだけではないということです。むしろ、pdfの特定のフィールドだけを抽出する方法はありますか?このようなものに使用できるPDFテンプレートの概念はありますか?テキスト抽出プロジェクト - 特定の行/項目のみをPDFから抽出するための最適なツールですか?
私はAppleのAutomatorを使用しようとしています。これはすべてのテキストを取得できますが、指定されたテキストは取得できません。理想的には、Pagesの誰かが慎重に30行のテキストを持ち、それらの行のうち20行を「カタログ項目」として指定し、Automatorスクリプトにこれらの20行だけを持たせたいと思います。
このために最適なワークフロー/抽出ツールに関するアイデアはありますか?私は、Apple Pages、Automator、Ruby、Pythonなどの消費者レベルのアイテムのみをスクリプト言語として使用することをお勧めします。 、これはあなたがルビーでOrigamiを使用することができます
なぜ人々は投票に投票するのだろうか? – timpone
抽出するPDF文書は、タグ付きPDF形式ですか? – alexis
おそらくタグ付けされているかどうかを選択できます。これらは、エンドユーザーが作成し、どのようにタグ付きのpdfがどれくらいうまく(または、あれば)サポートされているかわからない文書です。これはスクラッチからの解決策であり、あらゆるアイデアが評価されています。 – timpone