xpdf

    0

    1答えて

    thisを基にした関数内でこの関数を実行しようとしましたが、xPDFがPDFをPNGに変換できるため、ImageMagick変換ステップと、 pdftopngはルート名を必要とし、この場合は "ocrbook-000001.png"であり、元のPDFのファイル名のPNGを探すときにエラーをスローするので、関数(i)の処理を伴う論理。 私の問題は、TesseractにPNGファイルで何かをさせること

    1

    1答えて

    年齢層を掘り下げて答えを探すのに苦労しました。 しているバージョンの当社OSX devのシステム上の単一のバイナリpdftotextの0.39(brew install popplerを使用してインストール。我々は、他のバージョンにbrew search popplerを見つけることができないだけで単一のものを持っている。我々は、Linux上でコンパイルする(この特定のバージョンのソースを見つけよ

    1

    1答えて

    私は最近、Xpdfの一部であるpdftotextコマンドを使用してテキストベースのPDFをテキストに変換できるようにLinuxサーバーを設定しました。画像ベースのPDFをテキストに変換するにはgs( Ghostscript)とtesseractコマンドです。 どちらのソリューションも、PDFがテキストベースであるのか画像ベースであるのかが分かっていればうまく機能します。しかし、多くのPDFをテキス

    1

    1答えて

    私は現在、ディレクトリ内のどの「pdfs」が「セキュリティ文書」であるかを見つける必要があります。 pdf のすべてがであり、xpdfを介してコンバーチブルである必要があります。ただし、そうではありません。ディレクトリ内のすべてのpdfsをスキャンして、それらが保護されているかどうかを調べる方法はありますか?

    0

    2答えて

    pdfファイルをtxtに変換するC#またはC++(MFC)アプリケーションを作成する必要があります。私は変換するだけでなく、ヘッダー、フッター、左余白のいくつかのガベージ文字などを削除する必要があります。したがって、アプリケーションは、余白を設定して、不要なものを切り捨てるようにページの余白を設定することができます。私は実際にxpdfを使ってそのようなアプリケーションを作成しましたが、斜体や太字を

    5

    1答えて

    imを解析しようとしていますpdf〜〜PHP〜XPDF(pdftotext.exe)です。私のlocalhost上ではうまくいきますが、サーバ上のすべてを動かそうとすると、私は問題に陥ります。 私は、サーバーとセーフモードにいくつかの設定をチェックし、すべての最初には、幹部が無効と権限がrwxrwxrwxているされていない、オフです。 次に作業イマイチこの $command = "\\\\149.

    1

    2答えて

    R、 'tm'パッケージを使用して.pdfファイルを読み込む際に問題があります。 は具体的に、私は次のコードを実行しよう: library(tm) filename = "myfile.pdf" tmp1 <- readPDF(PdftotextOptions="-layout") doc <- tmp1(elem=list(uri=filename),language="en",id="