pdfbox

2熱

2答えて

PDFBoxを使用してPDFからテキストを抽出しています。 PDFは非常にシンプルで、列は非常に幅広く離れています。これはすべての種類の水平スペースが1つのスペース文字に変換されることを除いて、本当にうまく動作します。もはや列を分けることはできません（列内の単語内のスペースは、列間のスペースのように見えます）。一般的な解決策は非常に難しいと思いますが、この場合は列が実際には離れているため、「長

0熱

1答えて

PDFをHTMLConversionに変換する方法

最も効率的な方法でPDFをHTMLに変換したいと思っていました。入力は64進数でpdfになり、出力はhtmlにする必要があります。良いオープンソースもOK 誰でも手伝いできますか？

3熱

1答えて

Lucene - 効果的なテキスト検索

私は、pdfbox APIクラスLucenePDFDocumentによって生成されたインデックスを持っています。索引にはテキストの内容のみが含まれているため、この索引を効果的に検索したいと考えています。私は検索文字列で 'contents'フィールドを検索します。結果の順序は関連性の低いものから関連性の低いものにする必要があります。以下のコードは、検索されたテキストの単語を含むファイルを表示しま

1熱

1答えて

PDFBOX.net PDDocumentオブジェクトをデータベースに/シリアル化

私はいくつかのことをこれにいくつかの光を当てることを願っています。 [SERIALIZE]オプションを指定してPDFBOXを再コンパイルする必要があるようです。しかし、私はどのようにするか分かりません。私がやろうとしているのは、PDDocument docオブジェクトをデータベースに格納することです。エラー：アセンブリ 'PDFBox、Version = 0.0.0.0、Culture = n

0熱

1答えて

ASP.netでPDFファイルの空のセルを読み取る方法

私のASP.netアプリケーションでPDFBOXを使用してPDFファイルを読むことはできますが、空のセルのためのスペースをテーブルに追加していません。 C＃でPDFBOXを使用してPDFファイルから空のフィールドを読み込みます。 pdfファイルを読むための他の方法はありますか？ありがとうございました。テキストが正確にどこ事前にすべきであり、あなたはそれを抽出し、テキストの位置を取得することができ

3熱

1答えて

PDFBox - 座標系

私は次のことを達成したいと思います。私は一連のPDFファイルを持っていますが、まず座標系の原点を確認したいと思います。 pdfの座標系の原点が左上ではない場合（通常、原点は左下です）、左上の座標で結果のPDFを作成したいと思います。私はPDFBoxを使ってこれをしようとしています。[コードスニペットは下です]しかし、結果のPDFは空白になっています。間違っています。私はPDFBoxの初心者です。し