-3
私はgolangを使ってHTMLからテキストを抽出しようとしていますが、これを行うにはgoqueryライブラリを使用します。 以下のようなコード:goqueryを使用してHTMLからテキストを抽出しますが、結果にまだhtmlタグが含まれています
document, err := goquery.NewDocumentFromReader(r)
if err != nil {
log.Fatalln(err)
}
document.Find("script").Remove()
document.Find("style").Remove()
text := document.Find("body").Text()
あなたは結果がまだhtmlタグが含まれて見つけることができ、どのように私は削除することもできますhtmlタグを使用し、テキストのみを保持しますか?
実際に私はウェブスパイダーを作成しようとしていますが、このhtmlページは実際のWebページからコピーされています。そのページをテスト用に簡略化しています。テスト用のHTMLページ – Bill
テキストエリアにはテキストのみを含めることができ、HTML要素は含めることができません。テキストエリア内にHTMLリストを表示することはできません。それは常にtext/stringとして扱われます。そのため、.Text()の返品コンテンツの一部として返されます – foecum