PDF文書のマイナス記号の数を数えようとしています。C#を使用したPDF文書のマイナス記号の数のカウント
私はバイナリエディタを使用してドキュメントを開こうとしましたが、文字を直接識別できないことがわかりました。
誰でもこの方法を知っていますか?好ましくはC#を使用します。
PDF文書のマイナス記号の数を数えようとしています。C#を使用したPDF文書のマイナス記号の数のカウント
私はバイナリエディタを使用してドキュメントを開こうとしましたが、文字を直接識別できないことがわかりました。
誰でもこの方法を知っていますか?好ましくはC#を使用します。
免責事項:私はPDF技術にAtalasoftのために働きます。私たちのPdfTextDocumentクラスを使って、簡単にそれを行うことができます:
int minusCount = 0;
using (PdfTextDocument doc = new PdfTextDocument(pdfStream)) {
using (PdfTextReader reader = doc.GetPdfTextReader()) {
int c = 0;
while ((c = reader.Read()) >= 0) { // return < 0 at end
if ((char)c == '-') minusCount++;
}
}
}
PDF文書をテキストとして実際に解析できるものに変換するには、ライブラリlike this one for exampleを使用する必要があります。いくつかの簡単な回答については、そのライブラリのthis forum post and answerを参照してください。
ITextSharpで試してください。これは、pdfを解読してテキストを抽出するのに役立ちます。この質問に