私は、1行にいくつかのURLを持つファイルを持っています。タグに「キーワード」を抽出する必要があります。つまり、「キーワード」のメタタグがある場合は、そのタグの「コンテンツ」値を取得します。 例:ウェブページの場合には、このメタタグを持っていますwgetを使ってメタタグ属性を抽出する
<meta name="keywords" content="wikipedia,encyclopedia">
は、そのURLのために私は、「ウィキペディア、百科事典」は、抽出したいです。
「wget」を使用してWebページをダウンロードしてから、標準のHTMLパーサを使用して解析します。
Webページ全体をダウンロードすることなくこれを行うには、より良い方法があるのだろうかと思っていました。
ドキュメント全体をダウンロードするのはなぜ重要ですか?それは任意の制限(何らかの説明なしで、とにかく)のようです。 –
@ Suu タグキーワード –