PDFからデータをスクラップしてmysqlデータベースに保存

-2

誰かが私に、PDFファイルからデータをスクラップし、PHPや他のツールを使用してMySqlデータベースに保存するという考えを提案します。PDFからデータをスクラップしてmysqlデータベースに保存

実際には、プレーンテキストのコンテンツ（pdfコンテンツをapache-tikaツールを使用してプレーンテキストに変換）を読み取ってデータベースに保存するスクリプトを作成しています。しかし、これは非常に長いプロセスであり、正確ではありません。

このタスクを完了するための他の方法を提案してください。

2016-06-14 Ajai

http://www.pdfparser.org/ –

あなたには、いくつかのコードを表示してくださいすることができにそれが参考になっ願っています。 '正確ではない'あなたはどういう意味ですか？ http://stackoverflow.com/help/how-to-ask – Pogrindis

同様に、PDFコンテンツから人の「紹介」と「役職」を取り除きたい場合。だから、これらの見出しは内容に含まれていますが、「紹介」や「仕事の説明」の内容でこれらの見出しに来る可能性もあります。なぜ私がこれを言っているのかは正確ではないでしょう。 – Ajai

1つまたは2つのpdfをスクラップしたい場合は、オンラインツールを使用してpdfからhtmlに変換し、次にsimplehtmlDomライブラリを使用してデータをスクラップすることができます。 PDF Text Extractorを使用してpdfからテキストを拡張することができます。

は、私はあなたが

2016-06-14 12:36:40

いいえ、私は何百万ものPDFファイルを持っています。 – Ajai

あなたはPDF Text Extractorクラスを試すことができます –

答えて