2012-03-14 57 views

答えて

2

あなたは、ドキュメントからテキストを解析しようとしている場合、それは実用的ではないかもしれない

CAM::PDF

または

PDF::API3

を見てみてください。 CAM :: PDF :: Textから

このモジュールは、PDFページから順次テキストを抽出しようとします。この は、PDFテキストが任意の順序で にグラフィカルにレイアウトされているため、堅牢なプロセスではありません。このモジュールは、他のどのようなテキストの隣になりますが、簡単にだまされても、 が言う、添字、非水平テキスト、フォントの変更、フォームフィールド など

何テキスト を推測しようとするいくつかのヒューリスティックを使用しています
関連する問題