誰かが私に、PDFファイルからデータをスクラップし、PHPや他のツールを使用してMySqlデータベースに保存するという考えを提案します。PDFからデータをスクラップしてmysqlデータベースに保存
実際には、プレーンテキストのコンテンツ(pdfコンテンツをapache-tikaツールを使用してプレーンテキストに変換)を読み取ってデータベースに保存するスクリプトを作成しています。しかし、これは非常に長いプロセスであり、正確ではありません。
このタスクを完了するための他の方法を提案してください。
http://www.pdfparser.org/ –
あなたには、いくつかのコードを表示してくださいすることができにそれが参考になっ願っています。 '正確ではない'あなたはどういう意味ですか? http://stackoverflow.com/help/how-to-ask – Pogrindis
同様に、PDFコンテンツから人の「紹介」と「役職」を取り除きたい場合。だから、これらの見出しは内容に含まれていますが、「紹介」や「仕事の説明」の内容でこれらの見出しに来る可能性もあります。なぜ私がこれを言っているのかは正確ではないでしょう。 – Ajai