Wikipediaのページのサブセット(100MBなど)はどうすれば入手できますか?私はあなたがXMLとしてデータセット全体を得ることができることを発見しましたが、それは1または2ギグのようなものです。私はあまりそれを必要としません。Wikipediaのページのサブセットはどのように入手できますか?
マップリダクションアルゴリズムの実装を試してみたいと思います。
私は、どこからでも100メガバイト分のテキストサンプルデータを見つけることができれば、それも良いだろうと言っています。例えば。スタックオーバーフローデータベースが利用可能であれば、適切なサイズになる可能性があります。私は提案に開放されています。
編集:トレントではないものはありますか?私は仕事でそれらを得ることができません。
これは激流です、私は仕事でそれらを得ることができません。 – Chris
最新のダウンロードへのリンク:http://blog.stackoverflow.com/category/cc-wiki-dump/ – Chris
ここで同じDBについて話していますか? – Leo