2016-09-23 8 views
-3

私はgolangを使ってHTMLからテキストを抽出しようとしていますが、これを行うにはgoqueryライブラリを使用します。 以下のようなコード:goqueryを使用してHTMLからテキストを抽出しますが、結果にまだhtmlタグが含まれています

document, err := goquery.NewDocumentFromReader(r) 
if err != nil { 
    log.Fatalln(err) 
} 
document.Find("script").Remove() 
document.Find("style").Remove() 
text := document.Find("body").Text() 

テストhtmlページ: enter image description here

が、結果: enter image description here

あなたは結果がまだhtmlタグが含まれて見つけることができ、どのように私は削除することもできますhtmlタグを使用し、テキストのみを保持しますか?

答えて

1

ul要素をテキスト領域から取り出します。それはテキストとして扱われています。 enter image description here

+0

実際に私はウェブスパイダーを作成しようとしていますが、このhtmlページは実際のWebページからコピーされています。そのページをテスト用に簡略化しています。テスト用のHTMLページ – Bill

+0

テキストエリアにはテキストのみを含めることができ、HTML要素は含めることができません。テキストエリア内にHTMLリストを表示することはできません。それは常にtext/stringとして扱われます。そのため、.Text()の返品コンテンツの一部として返されます – foecum

関連する問題