1
私のニーズはかなり単純です。画像やスタイル、意味情報だけを除き、できるだけ多くの情報を保持したまま、PDFファイルをHTMLファイルに変換するツールやライブラリ(ライブラリは完璧です)が必要です。PDFをHTMLに変換するオープンソースライブラリ/ツールですか?
私はiTextPdfをチェックアウトしましたが、そのようなものは見つかりませんでした。どんな助けもいいだろう。
ありがとうございます。
私のニーズはかなり単純です。画像やスタイル、意味情報だけを除き、できるだけ多くの情報を保持したまま、PDFファイルをHTMLファイルに変換するツールやライブラリ(ライブラリは完璧です)が必要です。PDFをHTMLに変換するオープンソースライブラリ/ツールですか?
私はiTextPdfをチェックアウトしましたが、そのようなものは見つかりませんでした。どんな助けもいいだろう。
ありがとうございます。
iTextSharpを使用してください。無料で、 "itextsharp.dll"だけが必要です。ここで
http://sourceforge.net/projects/itextsharp/
PDFのうち、テキストを読むための簡単な関数です。
Public Shared Function GetTextFromPDF(PdfFileName As String) As String
Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName)
Dim sOut = ""
For i = 1 To oReader.NumberOfPages
Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy
sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its)
Next
Return sOut
End Function
この質問には既に数十回尋ねられています。さあ、人よ –
[HTMLからPDFへの変換]の可能な複製(http://stackoverflow.com/questions/564650/convert-html-to-pdf-in-net) –
さあ、 PDFからHTMLへの質問については、HTMLからPDFへの推薦を中止してください。 – Bobrovsky