2011-07-14 11 views
1

私のニーズはかなり単純です。画像やスタイル、意味情報だけを除き、できるだけ多くの情報を保持したまま、PDFファイルをHTMLファイルに変換するツールやライブラリ(ライブラリは完璧です)が必要です。PDFをHTMLに変換するオープンソースライブラリ/ツールですか?

私はiTextPdfをチェックアウトしましたが、そのようなものは見つかりませんでした。どんな助けもいいだろう。

ありがとうございます。

+0

この質問には既に数十回尋ねられています。さあ、人よ –

+0

[HTMLからPDFへの変換]の可能な複製(http://stackoverflow.com/questions/564650/convert-html-to-pdf-in-net) –

+11

さあ、 PDFからHTMLへの質問については、HTMLからPDFへの推薦を中止してください。 – Bobrovsky

答えて

4

iTextSharpを使用してください。無料で、 "itextsharp.dll"だけが必要です。ここで

http://sourceforge.net/projects/itextsharp/

PDFのうち、テキストを読むための簡単な関数です。

Public Shared Function GetTextFromPDF(PdfFileName As String) As String 
    Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName) 

    Dim sOut = "" 

    For i = 1 To oReader.NumberOfPages 
     Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy 

     sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its) 
    Next 

    Return sOut 
End Function 
関連する問題