Q

例えば、いくつかの文書

2012-05-06 8 views -1 likes

-1

から一つだけの画像やテキストを抽出するためにどのように私はこのdocument 例えば、いくつかの文書

を使用するこの文書では、テキストと画像の束を持っています。どのようにして1つのイメージと最初の100文字しか抽出できないのか、それらの文字がhtmlタグなどでないことを確認することができます。

2012-05-06 1110

+0

[スタックオーバーフローはあなたの個人研究アシスタントではありません]（http://meta.stackexchange.com/a/128553/140505） – Oded

A

答えて

1

確かに正規表現ではないHTML Agility PackのようなHTMLパーサーを使用してください。

ページが実際にWikipediaページである場合は、the APIを使用した方が良いかもしれません。

2012-05-06 11:23:13 svick

関連する問題