私は定期的に読んでいる音楽ウェブサイトがあり、ユーザーが自分の架空の音楽関連の記事を投稿するセクションがあります。常にコンベンションに従った91部のシリーズがあります(長時間にわたって書かれ、パートごとにアップロードされています)。 http://www.ultimate-guitar.com/columns/fiction/riot_band_blues_part_#.htmlです。Python HTML - 属性別に要素を取得
私はすべての部分から書式設定されたテキストを取得し、それを1つのhtmlファイルに入れたいと思っています。
便宜上、私の目的のために正しくフォーマットされた印刷版へのリンクがあります。私がする必要があるのは、すべてのパーツをダウンロードしてファイルにダンプするためのスクリプトを書くことだけです。難しくない。
次のように残念ながら、印刷版のURLは次のとおりです。何に対応してどのような記事を知るため www.ultimate-guitar.com/print.php?what=article & ID = 95932
唯一の方法IDフィールドは、元の記事の特定の入力タグの値属性を見ることです。
Go to each page, incrementng through the varying numbers.
Find the <input> tag with attribute 'name="rowid"' and get the number in it's 'value=' attribute.
Go to www.ultimate-guitar.com/print.php?what=article&id=<value>.
Append everything (minus <html><head> and <body> to a html file.
Rinse and repeat.
これが可能である:
は、私は何をしたい、このですか?そしてPythonは適切な言語ですか?また、どのdom/html/xmlライブラリを使うべきですか?
ありがとうございました。
これはクロスドメインとみなされ、ブラウザのセキュリティ目的では機能しません。 – Vigrond
True。いくつかの変更を加えたgreasemonkeyスクリプトとして動作します。 – beerbajay