8

膨大な(圧縮されていても)英語のWikipedia XMLダンプファイルenwiki-latest-pages-articles.xml.bz2から比較的最新の静的HTMLファイルを入手したいと考えています。WikiMedia dump pageからダウンロードしました。ドキュメントはかなり手に入りませんが、ほとんどのツールが何をしているのか、最新のダンプを最新にしているのか分かりません。 (私は、比較的小さなHTMLページやファイルをクロールすることができるWebクローラーを構築することに優れていますが、SQLとXMLにはひどいですが、少なくとももう1年はどちらかというと非常に良いとは思いません。 Wikipediaをオンラインでクロールすることなく、ダンプから取得したHTMLファイルをクロールすることができます。WikipediaのXMLダンプから静的なHTMLファイルを取得する

最近のWikipedia XMLダンプから静的なHTMLファイルを入手するには、誰も良いツールを知っていますか?

答えて

3

まず、import the data。次に、DumpHTMLでHTMLファイルを作成します。理論的には単純ですが、このプロセスは実際には複雑なデータになりますが、DumpHTMLは無視されますので、ask for helpにお気軽にお問い合わせください。

+1

また、数週間または数ヶ月かかる場合もあります。私は数年前にWiktionaryダンプをインポートしていましたが、それは数桁小さく、数日かかりました。非常に痩せたマシンでそれを行うことは役に立ちます。誰かが私たちにどれくらいの時間をかけて輸入したかを教えてもらえるかどうかは疑問です。 – hippietrail

+0

処理時間は間違いなく考慮する必要があります。私たちがここで話しているスケールに対処するには十分であるかどうかはわかりませんが、私はいつかは牛のようなデスクトップマシンを手に入れることができるかもしれません。 (私はそこに並列ソリューションがあるのだろうかと思います。)静的なHTMLダンプがあることは知っていますが、最新のものは2008年のものです。 –

+0

オフラインのカスタムUbuntuディストリビューションにバンドルされたスクリプトの一部として、特定のページをレンダリングするために必要な部分だけを動的にレンダリングする方法はありますか? @hippietrail –

関連する問題