xpdf

0熱

1答えて

Tesseract「pixCreateNoInitのエラー：データのpix_mallocが失敗しました」

thisを基にした関数内でこの関数を実行しようとしましたが、xPDFがPDFをPNGに変換できるため、ImageMagick変換ステップと、 pdftopngはルート名を必要とし、この場合は "ocrbook-000001.png"であり、元のPDFのファイル名のPNGを探すときにエラーをスローするので、関数（i）の処理を伴う論理。私の問題は、TesseractにPNGファイルで何かをさせること

1熱

1答えて

pdftotextバイナリの特定のバージョン（古いバージョンのpoppler-utilsは同じバージョンではありません）？

年齢層を掘り下げて答えを探すのに苦労しました。しているバージョンの当社OSX devのシステム上の単一のバイナリpdftotextの0.39（brew install popplerを使用してインストール。我々は、他のバージョンにbrew search popplerを見つけることができないだけで単一のものを持っている。我々は、Linux上でコンパイルする（この特定のバージョンのソースを見つけよ

1熱

1答えて

PHPで "text" PDFと "image" PDFを区別する方法は？

私は最近、Xpdfの一部であるpdftotextコマンドを使用してテキストベースのPDFをテキストに変換できるようにLinuxサーバーを設定しました。画像ベースのPDFをテキストに変換するにはgs（ Ghostscript）とtesseractコマンドです。どちらのソリューションも、PDFがテキストベースであるのか画像ベースであるのかが分かっていればうまく機能します。しかし、多くのPDFをテキス

1熱

1答えて

セキュリティで保護されたpdfドキュメントをスキャン

私は現在、ディレクトリ内のどの「pdfs」が「セキュリティ文書」であるかを見つける必要があります。 pdf のすべてがであり、xpdfを介してコンバーチブルである必要があります。ただし、そうではありません。ディレクトリ内のすべてのpdfsをスキャンして、それらが保護されているかどうかを調べる方法はありますか？

0熱

2答えて

pdfからテキストへの変換

pdfファイルをtxtに変換するC＃またはC++（MFC）アプリケーションを作成する必要があります。私は変換するだけでなく、ヘッダー、フッター、左余白のいくつかのガベージ文字などを削除する必要があります。したがって、アプリケーションは、余白を設定して、不要なものを切り捨てるようにページの余白を設定することができます。私は実際にxpdfを使ってそのようなアプリケーションを作成しましたが、斜体や太字を

5熱

1答えて

共有ドライブでxpdf（pdftotext.exe）を実行するには？

imを解析しようとしていますpdf〜〜PHP〜XPDF（pdftotext.exe）です。私のlocalhost上ではうまくいきますが、サーバ上のすべてを動かそうとすると、私は問題に陥ります。私は、サーバーとセーフモードにいくつかの設定をチェックし、すべての最初には、幹部が無効と権限がrwxrwxrwxているされていない、オフです。次に作業イマイチこの $command = "\\\\149.

1熱

2答えて

Windowsにpdftotextをインストールする（R、 'tm'パッケージ用）

R、 'tm'パッケージを使用して.pdfファイルを読み込む際に問題があります。は具体的に、私は次のコードを実行しよう： library(tm) filename = "myfile.pdf" tmp1 <- readPDF(PdftotextOptions="-layout") doc <- tmp1(elem=list(uri=filename),language="en",id="