2017-09-20 17 views
0

Smalot PDF Parserを使用してPDFを解析しようとしていますが、テキストのフォーマットが正しくないという問題があります。文字の間にスペースを表示しています。
例: "Letter"という単語は "L e tt e r"と書かれています。どうすれば修正できるの?
また、Smalot PDF Parserが提供するドキュメントでは不十分です。 PDF Parserの詳細な実装については、さらに詳しいドキュメントが必要です。もし誰かがそれを持っているなら、親切に私に多くのドキュメンテーションを与えてください。 ありがとう!Smalot PDFパーサーを使用してPDFを解析中にテキスト形式のエラーが発生しました

答えて

0

PDFからテキストを抽出しようとするのは常に困難です。 これは、PDF文書がWYSIWYG形式ではないため、指示のコンテナと考えるべきです。

テキストを抽出すると、どのような文字がどの位置に描画されているかを知るための指示を再生し、ヒューリスティックを適用して「これらの文字が互いに接近していること」を判断します。

PHPでなければならないのですか?

+0

はいそれはPHPにする必要があります。私は経験則を適用する方法を知らない。私にコードを送ってください。 –

+0

StackOverflowはアウトソーシング会社ではありません。自分で行ったことを私たちに知らせることなく、コードを要求するだけではありません。 –

+0

私はあなたの要求するものをあなたに見せます。どうすればいいですか? –

関連する問題