2017-04-18 9 views
2

私はAsp.Netコアプロジェクターを使用しました。このプロジェクトは、私がpdfから情報を抽出すべき別の図書館を参照しています。私はitextsharpを使っていましたが、.netコアと互換性がないようです。Net Coreのpdfを解析する

どのように私はPDFファイルからテキストを抽出することができますか?

+1

あなたはここに質問をする場合は、我々はサードパーティのライブラリのための勧告を行うことができます。http:// softwarerecs .stackexchange.com/ –

+0

ソフトウェアの推奨事項になるはずですので、この質問を議論の対象外とすることに投票しました – VMAtm

+0

@ VMAtmサードパーティ製のライブラリがなくてもそれを実行できる方が良いでしょう。それが唯一の方法なら、私は図書館でそれをやります。しかし、私の質問は、別のライブラリ(または "最高のライブラリ")の選択についてではありません。私の質問はそれをどうやって行うのかです。多分これにはライブラリが必要ですが、私はまだ分かりません。 – J4N

答えて

0

独自のpdfパーサーを作成する場合は、pdfファイル形式のさまざまなバージョンすべてを読み上げる必要があります。それらはすべて公式にhereと文書化されています。

+0

私はそれがそれほど複雑ではないと思いました。異なるバージョンのリビジョンがたくさんあります.PDFには1310ページが含まれていますが、これをすべて読み込むことはできません(すべてのバージョンを実装することはできません)。私はちょうどPDFからいくつかのテキストを取得しようとしています... – J4N

+0

残念なことに、遅い応答が残念ながら、簡単な方法はありませんが、すでに他の人によって書かれたライブラリを使用することです。テキストフィールドだけを読むパーサーを半分書くことができるかもしれませんが、フォーマットの異なるリビジョンを考慮する必要があります。つまり、パーサが読んでいるpdfsがすべて正確なバージョンであることが確実でない限りです。また、注意すべきもう一つのことは、テキストがpdfのテキストとしてではなくイメージとして実際には格納されないことです。 – Bobby

0

PDFからのテキスト抽出は複雑な作業です。私はあなたがライブラリなしでこれをすることをお勧めしません。

Asp.Net Coreライブラリの場合、Docotic.Pdf library(私はベンダーのために働いています)をお勧めします。ライブラリsupports .NET Standardは、テキストだけでなくパスとイメージも抽出するために使用できます。ここで

は、いくつかのサンプルです:

+0

答えをありがとう、それは私が自由時間に行う非常に小さなオープンソースプロジェクトのため、私はあなたのライセンスを買う余裕がありません:( – J4N

+0

https://github.com/VahidN/iTextSharpを見てください。 LGPLv2.Core –