日本語のPDFから文字列を抽出したい。
しかし、文字化けしてしまいます。
どうすればよいですか、何が間違っていますか? (Nugetから7.0.4)iText 7が文字列を抽出したときにテキストが文字化けする
iText.IO.Util.ResourceUtil.AddToResourceSearch("itext.font_asian.dll");
using (PdfReader reader = new PdfReader(pdfPath))
using (var doc = new PdfDocument(reader))
{
var rect = new Rectangle(100, 100, 800, 800);
var filter = new TextRegionEventFilter(rect);
var pageCount = doc.GetNumberOfPages();
for (int i = 1; i <= pageCount; i++)
{
ITextExtractionStrategy strategy = new FilteredTextEventListener(new LocationTextExtractionStrategy(), filter);
var page = doc.GetPage(i);
var str1 = PdfTextExtractor.GetTextFromPage(page, strategy);
}
}
のVisual Studio 2015
C#.NETのフレームワーク4.6.1
iText7(Nugetから7.0.4)
iText.fontアジア
PDFファイル:Japanese_PDF.pdf
あるいは、「PDFビューアからテキストをコピー/ペーストすると同じ結果が得られますか?あなたの質問はあまりにも不完全で答えることができません。私たちにPDFを見せてください。フォントにtoUnicodeマップがありますか? (これらの質問があなたが答えるにはあまりにも難しい場合は、PDFを見て自分で確認できるようにする必要があります) –
あなたのコメントをありがとうございます。そして、私の質問は悪いことを申し訳ありません。 PDFファイルはリンクとして書かれていましたが、わかりやすくするために編集しました。 (あなたはそれをダウンロードすることができますか?)コピーアンドペーストについて :私は、Acrobat Readerを表示PDFから文字列を選択し、メモ帳に貼り付けることができます。 ここからコードを調べます。 toUnicodeマップはPdfDocument(PdfPage?)から取得できますか?私もこれを調べます。 – nob