2017-04-17 22 views
0

私のコードに何が問題なのかよく分かりません。 PDFファイルを読み込んですべてのテキストを取得しますが、すべての項目は1つの文字列に結合され、いずれの種類のセパレータもありません。行ごとにPDFラインを読む - iTextSharp

サンプル:

"ハウス:2つの

寝室:3

Bathsroom 4" 私は「

は、 "::2Bedrooms 3Bathsroom 4住宅" として読まれますすべての例を検索して無駄にしました。また、LocationTextExtractionStrategyを無駄にしようとしました。 .splitメソッドを使用してみましたが、何の助けもありませんでした。

Public Shared Function ParseAllPdfText(ByVal filepath As String) 
    Dim sbtxt, currenttext As String 

    sbtxt = "" 
    Try 

     Using reader As New PdfReader(filepath) 

      For intPages As Integer = 1 To reader.NumberOfPages 

       currenttext = PdfTextExtractor.GetTextFromPage(reader, intPages, New LocationTextExtractionStrategy()) 
       currenttext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(currenttext))) 
       sbtxt = sbtxt & currenttext & vbcrlf 

      Next 

     End Using 

    Catch ex As Exception 
     MsgBox(" There was an error extracting text from the file: " & ex.Message, vbInformation, "Error Extracting Text") 

    End Try 
    Return sbtxt 
+0

問題のPDFを共有できますか?さらに、その 'エンコーディング'ジャグリングラインで何を達成しようとしていますか? – mkl

答えて

0

これは私の見解です。私はラインがChr(10)で区切られていることを理解しました。 Chr(10)は、文字列を出力していたテキストボックスに新しい行を作成しません。ただし、MsgBoxで新しい行を作成します。したがって、他の誰かがこの問題に遭遇した場合、chr(10)は区切り文字です。 :-)

関連する問題