MediaWikiの店はあなたが数える方法に応じて、二、三の場所でデータをファイル:現在のファイルバージョンの
実際のメタデータがimage
テーブルに格納されています。これはおそらくあなたが主に望むものです。最新のen.wikipediaダンプhereが見つかります。
古い代替ファイルリビジョンのデータはoldimage
テーブルに移動されます。これは基本的にimage
テーブルと同じ構造です。このテーブルもダンプされ、最新のものはhereです。
最後に、各ファイルは、名前空間6(File:
)のかなり一般的なwikiページにも対応しています。これらのテキストは、他のページと同じように、XMLダンプ内にあります。
ああ、あなたは英語版ウィキペディアダンプににリンクされているそれらのファイルを見つけていない理由は、彼らはウィキメディア・コモンズで共有リポジトリからだということです。あなたは代わりにCommons data dumpsにそれらを見つけるでしょう。私の知る限り実際のファイル、here's the (apparently) official documentation.をダウンロードするよう
、彼らはによって意味のすべて「一括ダウンロードはミラーから入手できるが、ウィキメディア・サーバから直接提供されていない(2012年9月現在)現在ある。は」ということですすべてのイメージをtarballに入れたい場合は、ミラーを使用する必要があります。 WikipediaやCommonsの画像上で数百万の比較的小さな部分集合を引っ張っているだけであれば、Wikimediaサーバを直接使うのは大丈夫です。
覚えておいてください:user-agent stringを送信し、サーバーをあまりにも激しく叩かないでください。特に、ダウンロードを順番に実行することをお勧めします。前のファイルを終了した後で次のファイルのダウンロードを開始するだけです。とにかくパラレルダウンロードよりも簡単に実装できるだけでなく、帯域幅のシェア以上を占有せず、ダウンロード速度をサーバーの負荷に自動的に適応させることができます。
ps。あなたは、彼らがしているどのディレクトリ把握する必要がありそう、ウィキメディア・サーバから直接ミラーからファイルをダウンロードするかどうかの典型的なウィキペディアのファイルのURLは次のようになります。。
http://upload.wikimedia.org/wikipedia/en/a/ab/File_name.jpg
ここで、「wikipedia/en
」の部分(歴史的な理由からCommonsは "wikipedia/commons
"と表示されています)、the "a/ab
" partはUTF-8でのファイル名のMD5ハッシュの最初の2桁の16進数で与えられます(データベースダンプでエンコードされているため) )。
次は、同じ症状を示す2番目の画像の例です。私は束を試して、ダンプの中にまだ1つを見つけていない。 http://en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg –