0
私のコードに何が問題なのかよく分かりません。 PDFファイルを読み込んですべてのテキストを取得しますが、すべての項目は1つの文字列に結合され、いずれの種類のセパレータもありません。行ごとにPDFラインを読む - iTextSharp
サンプル:
"ハウス:2つの
寝室:3
Bathsroom 4" 私は「
は、 "::2Bedrooms 3Bathsroom 4住宅" として読まれますすべての例を検索して無駄にしました。また、LocationTextExtractionStrategyを無駄にしようとしました。 .splitメソッドを使用してみましたが、何の助けもありませんでした。
Public Shared Function ParseAllPdfText(ByVal filepath As String)
Dim sbtxt, currenttext As String
sbtxt = ""
Try
Using reader As New PdfReader(filepath)
For intPages As Integer = 1 To reader.NumberOfPages
currenttext = PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy())
currenttext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(currenttext)))
sbtxt = sbtxt & currenttext & vbcrlf
Next
End Using
Catch ex As Exception
MsgBox(" There was an error extracting text from the file: " & ex.Message, vbInformation, "Error Extracting Text")
End Try
Return sbtxt
問題のPDFを共有できますか?さらに、その 'エンコーディング'ジャグリングラインで何を達成しようとしていますか? – mkl