2012-05-06 3 views
-1

から一つだけの画像やテキストを抽出するためにどのように私はこのdocument例えば、いくつかの文書

を使用するこの文書では、テキストと画像の束を持っています。どのようにして1つのイメージと最初の100文字しか抽出できないのか、それらの文字がhtmlタグなどでないことを確認することができます。

+0

[スタックオーバーフローはあなたの個人研究アシスタントではありません](http://meta.stackexchange.com/a/128553/140505) – Oded

答えて

1

確かに正規表現ではないHTML Agility PackのようなHTMLパーサーを使用してください。

ページが実際にWikipediaページである場合は、the APIを使用した方が良いかもしれません。

関連する問題