-1
から一つだけの画像やテキストを抽出するためにどのように私はこのdocument例えば、いくつかの文書
を使用するこの文書では、テキストと画像の束を持っています。どのようにして1つのイメージと最初の100文字しか抽出できないのか、それらの文字がhtmlタグなどでないことを確認することができます。
から一つだけの画像やテキストを抽出するためにどのように私はこのdocument例えば、いくつかの文書
を使用するこの文書では、テキストと画像の束を持っています。どのようにして1つのイメージと最初の100文字しか抽出できないのか、それらの文字がhtmlタグなどでないことを確認することができます。
確かに正規表現ではないHTML Agility PackのようなHTMLパーサーを使用してください。
ページが実際にWikipediaページである場合は、the APIを使用した方が良いかもしれません。
[スタックオーバーフローはあなたの個人研究アシスタントではありません](http://meta.stackexchange.com/a/128553/140505) – Oded