goqueryを使用してHTMLからテキストを抽出しますが、結果にまだhtmlタグが含まれています

-3

私はgolangを使ってHTMLからテキストを抽出しようとしていますが、これを行うにはgoqueryライブラリを使用します。以下のようなコード：goqueryを使用してHTMLからテキストを抽出しますが、結果にまだhtmlタグが含まれています

document, err := goquery.NewDocumentFromReader(r) 
if err != nil { 
    log.Fatalln(err) 
} 
document.Find("script").Remove() 
document.Find("style").Remove() 
text := document.Find("body").Text()

テストhtmlページ：

が、結果：

あなたは結果がまだhtmlタグが含まれて見つけることができ、どのように私は削除することもできますhtmlタグを使用し、テキストのみを保持しますか？

出典

2016-09-23 Bill

ul要素をテキスト領域から取り出します。それはテキストとして扱われています。

出典

2016-09-23 16:33:11 foecum

実際に私はウェブスパイダーを作成しようとしていますが、このhtmlページは実際のWebページからコピーされています。そのページをテスト用に簡略化しています。テスト用のHTMLページ – Bill

テキストエリアにはテキストのみを含めることができ、HTML要素は含めることができません。テキストエリア内にHTMLリストを表示することはできません。それは常にtext/stringとして扱われます。そのため、.Text（）の返品コンテンツの一部として返されます – foecum

goqueryを使用してHTMLからテキストを抽出しますが、結果にまだhtmlタグが含まれています

答えて

関連する問題