から単語内にスペースを挿入し、私は以下のPDFファイルからテキストを抽出しようとしています:iTextSharpはiTextSharpを使用してPDFファイル
https://www.treasury.gov/ofac/downloads/sdnlist.pdf
これはコードです:
var currentText = PdfTextExtractor.GetTextFromPage(pdfReader, 2, new SimpleTextExtractionStrategy());
if (currentText.Length > 0)
{
var capture = new Capture();
capture.Text = currentText;
// write the results to the DB, if any data was found
_dataService.AddCapture(capture);
}
使い方SimpleTextExtractionStrategyを使用すると、結果は単語内に無数の不必要なスペースを入れてデータベースに書き込まれます。 2ページ書き込みの最初の数行:
特別指定国民& BLOCKED PERSONS 2017年2月3日外国資産管理局 - 2 - A.A. RASPLET IN; a。 a。 AL MAZ -AN TEY MSDB; a.k.a。 AL MAZ -ANTEY PV O 'AI R防衛' CO NCERNリードSYSTE M S設計局OAO 'OPEN JO INT -STOCK 同社IMENI ACADEMIC IAN aの化合物。表。 RASPLETIN; a.k .a。 GO LOVNOYE SISTEMN OYE KONS TRUKT ORSKOY E BYURO OPEN J OIN T-SタックC OMPアルマズ-AN TEY PVO C ONCERN I MEN IアカデミーA .A OF ANY 。 RASPLE TIN; a.k. a。 ACADE MICIAN A.A.によって命名SYSTE M設計局IN JO INT STOCK C OMPANY A LMA Z-AN TEY AI R DEFENSE CON CERN MA
例えば第四&第六行のワード「JO INT」、そして最後の行に第二のワード「CONのCERN」を参照してください。これらのタイプのスペースは、結果全体にわたって発生します。これは残念なことに、テキストの照会を不可能にします。
誰もが、これはこれを実行し、これを解決する方法を、なぜ任意のアイデアを持っていますか?
私はこれらの部分の周りを見ましたが、あなたは確かにこの主題の王です。あなたの偉大な知恵と助けをありがとう! – Stpete111