2013-04-05 8 views
6

私はwikipedia上のすべての画像の包括的なリストを探しています。Wikipedia Dumpで画像を検索してダウンロードする

http://dumps.wikimedia.org/enwiki/latest/

そして、DBスキーマを学ん:私はSQLはここからダンプをダウンロードした

http://upload.wikimedia.org/wikipedia/commons/thumb/4/42/MediaWiki_1.20_%2844edaa2%29_database_schema.svg/2193px-MediaWiki_1.20_%2844edaa2%29_database_schema.svg.png

私はWikipediaのページからサンプル画像を選ぶとき、私はそれを理解すると思いますが、私はダンプのどこでもそれを見つけることができません。たとえば:

http://en.wikipedia.org/wiki/File:Carrizo_2a.JPG

私はダンプ「イメージ」にgrepを、「imagelinks」、および「ページ」「Carrizo_2a.JPG」を探して、それが見つからないですやりました。

これらのダンプは完了していませんか?私は構造を誤解していますか?これを行うより良い方法はありますか?

また、先に飛び降りる:私のリストをフィルターにかけた後、大量の画像(何千もの)をダウンロードしたいと思ったら、サイトのミラーからこれを行う必要があるwikipedia/wikimediaをオーバーロードする。もしこれについての指導もあれば、それは助けになるでしょう。

+0

次は、同じ症状を示す2番目の画像の例です。私は束を試して、ダンプの中にまだ1つを見つけていない。 http://en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg –

答えて

10

MediaWikiの店はあなたが数える方法に応じて、二、三の場所でデータをファイル:現在のファイルバージョンの

  • 実際のメタデータがimageテーブルに格納されています。これはおそらくあなたが主に望むものです。最新のen.wikipediaダンプhereが見つかります。

  • 古い代替ファイルリビジョンのデータはoldimageテーブルに移動されます。これは基本的にimageテーブルと同じ構造です。このテーブルもダンプされ、最新のものはhereです。

  • 最後に、各ファイルは、名前空間6(File:)のかなり一般的なwikiページにも対応しています。これらのテキストは、他のページと同じように、XMLダンプ内にあります。

ああ、あなたは英語版ウィキペディアダンプににリンクされているそれらのファイルを見つけていない理由は、彼らはウィキメディア・コモンズで共有リポジトリからだということです。あなたは代わりにCommons data dumpsにそれらを見つけるでしょう。私の知る限り実際のファイル、here's the (apparently) official documentation.をダウンロードするよう

、彼らはによって意味のすべて「一括ダウンロードはミラーから入手できるが、ウィキメディア・サーバから直接提供されていない(2012年9月現在)現在ある。は」ということですすべてのイメージをtarballに入れたい場合は、ミラーを使用する必要があります。 WikipediaやCommonsの画像上で数百万の比較的小さな部分集合を引っ張っているだけであれば、Wikimediaサーバを直接使うのは大丈夫です。

覚えておいてください:user-agent stringを送信し、サーバーをあまりにも激しく叩かないでください。特に、ダウンロードを順番に実行することをお勧めします。前のファイルを終了した後で次のファイルのダウンロードを開始するだけです。とにかくパラレルダウンロードよりも簡単に実装できるだけでなく、帯域幅のシェア以上を占有せず、ダウンロード速度をサーバーの負荷に自動的に適応させることができます。

ps。あなたは、彼らがしているどのディレクトリ把握する必要がありそう、ウィキメディア・サーバから直接ミラーからファイルをダウンロードするかどうかの典型的なウィキペディアのファイルのURLは次のようになります。。

http://upload.wikimedia.org/wikipedia/en/a/ab/File_name.jpg 

ここで、「wikipedia/en」の部分(歴史的な理由からCommonsは "wikipedia/commons"と表示されています)、the "a/ab" partはUTF-8でのファイル名のMD5ハッシュの最初の2桁の16進数で与えられます(データベースダンプでエンコードされているため) )。

+0

ありがとうございました!私は一括ダウンロードの部分にまだ着いていないが、私はデータの2つの別々のリポジトリがあることを認識していない。私は今すぐ両方をインポートしていますが、すばらしい「grep」が、欠落しているファイルがコモンズのものであることを確認しました。ウィキペディア/メディアではこのことを簡単に理解することはできません。 :) –

+0

私はパブリックドメインのものによって私が選択している画像をどのようにフィルタリングするかを理解しようとしている以外、すべてがスムーズに進んでいます。私は '画像'テーブルまたは 'ページ'テーブルでこの情報を見つけることができません。 おそらくページ自体の内容にしかないと思います。例えばこのページの「ライセンス」セクションを参照してください:http://en.wikipedia.org/wiki/File:Carrizo_2a.JPG このファイルをダウンロードする: http://dumps.wikimedia.org/enwiki /latest/enwiki-latest-pages-articles.xml.bz2 しかし、私はこれを簡単に操作できるようにSQL版を探しています。助言がありますか?そして私はここで正しい道を歩いていますか? –

+0

私はこのページに「すべてのページとリンクのSQLファイルも利用可能です」と書いておきます。それが、おそらくどこかに存在するかもしれないという手がかりを私に与えたのです。 –

関連する問題