C#の2つのPDFファイルのテキストコンテンツをチェックしたいと思います。C#で2つのpdfファイルを比較する最良の方法は何ですか?
-4
A
答えて
4
これらが同じ場合は、バイナリ比較ができます。文脈を比較するには、おそらくPDFライブラリが必要です。 Hereはいくつかのライブラリです。
0
簡単にはできませんが、最初のステップは、PDFからテキストを抽出できる適切なPDFライブラリを入手することです。私が使ったのは、http://itextpdf.com/(オープンソース)から入手できるITextSharpです。次に、DIffer: a reusable C# diffing utility and class libraryのようなdiffライブラリを試してください。がんばろう!
0
免責事項:私はAtalasoftで働いています。
AtalasoftのDotImage SDKを使用して、C#のPDFからテキストを抽出することができます。 PDFがすでに検索可能な場合は、簡単にテキストにアクセスできます。
public String GetText(Stream s, int pageNum, int charIndex, int count)
{
using (PdfTextDocument doc = new PdfTextDocument(s))
{
PdfTextPage textPage = doc.GetPage(pageNum);
return textPage.GetText(charIndex, count);
}
}
そうでない場合は、OCRツールを使用してイメージのテキストを検出できます。
0
それはしばらくしていますが、この関数は、(私が埋め込まれた画像か何かでPDFの上でそれをしようとした場合、私は覚えていない...しかし、無保証)私のために働きました。ファイルにはGUIDやIDなどが埋め込まれていますが、削除して他のものと比較するだけです。コードは次のとおりです。
static bool ComparePDFs(string file1, string file2)
{
if (!File.Exists(file2))
return false;
int i;
string f1 = File.ReadAllText(file1);
string f2 = File.ReadAllText(file2);
if (f1.Length != f2.Length)
return false;
// Remove PDF ID from file1
i = f1.LastIndexOf("/ID [<");
if (i < 0)
Console.WriteLine("Error: File is not a valid PDF file: " + file1);
else
f1 = f1.Substring(0, i) + f1.Substring(i + 75);
// Remove PDF ID from file2
i = f2.LastIndexOf("/ID [<");
if (i < 0)
Console.WriteLine("Error: File is not a valid PDF file: " + file2);
else
f2 = f2.Substring(0, i) + f2.Substring(i + 75);
return f1 == f2;
}
関連する問題
- 1. 2つのエンティティフレームワークエンティティを比較する最良の方法は何ですか?
- 2. リモートサーバー間でファイルを比較する最も良い方法は何ですか?
- 3. 2つのURLを比較する最良の方法
- 4. パフォーマンスのためにSQLクエリの2つの変種を比較する最良の方法は何ですか?
- 5. Cで2つのprotobufferファイルを比較する方法#
- 6. テーブル内の2つの列とデータを比較する最良の方法は何ですか?
- 7. Crystal Reportsを比較する最良の方法は何ですか?
- 8. C#で2つのリストを返す最も良い方法は何ですか?
- 9. 2つの一般的な値を比較する最良の方法は?
- 10. 2つの整数配列を比較し、最初から最後までの違いを見つける最良の方法は何ですか?
- 11. Matlabの2つの信号を比較する最良の方法
- 12. 2つのフラットファイルの内容を比較する最良の方法
- 13. 2つのPDFファイルを比較するには?
- 14. C++で2つのNAN値を比較する方法
- 15. Cで2つの辞書を比較する方法
- 16. PHPとMySQLの2つのParagarphを比較する最良の戦略は何ですか?
- 17. NAntで2つのファイルを比較する方法
- 18. 最後の2つのファイルをバッチで比較する
- 19. sha1ハッシュを等価で比較する最良の方法
- 20. 2つの異なるデータベースインスタンスから2つのテーブルを比較する最も良い方法は何ですか
- 21. 複数のリストを異なる数のパラメータで比較する最も良い方法は何ですか
- 22. PHPで2つのオブジェクトを比較する最も速い方法は何ですか?
- 23. 2つのJavaPairRDDをキーで比較し、値を比較する方法は?
- 24. cで2つのtxtファイルを比較する
- 25. 2つのWindowsランタイムバッファを連結する最良の方法は何ですか?
- 26. 2つのJavaプロジェクトを同期する最良の方法は何ですか?
- 27. 2つのExcelファイルとCSVファイルを比較する方法
- 28. C++で2つのファイルから最も近い数値を比較して抽出する方法
- 29. .flaファイルをバッチコンパイルする最良の方法は何ですか?
- 30. サウンドをファイルにする最良の方法は何ですか?
どのように比較すればよいですか?それらが同一であることを確認するには?違いを調べるには?他に何か? – Oded