2012-03-19 3 views
3

インデックス作成と検索タスクを実行するために、5〜10 GBの範囲の平易な英文テキストファイル(txt)を検索しようとしています。そのようなデータセットをダウンロードできるオープンソースはありますか?5〜10 GBのテキストファイルをダウンロードするには?

おかげ

Wajih

+0

巨大なハッシュテーブルは、どのようなあなたを探しているということでしょうか? –

+0

@PatrickLorio - 私はプレーンテキストを探しています。大規模なハッシュテーブルではありません。私は単純にディスクを純粋なテキストとして読み込み、解析はしません。私はMS-Wordファイルとソートが私の必要としているものではないことを意味します。 –

答えて

2

私は数年前に私のマスターのための研究をするときに同じことが必要でした。私は何です。このサイトから複数の本を組み合わせた:

http://www.gutenberg.org/

+0

ありがとう....実際のデータセットのサイズを教えてください。圧縮されていない場合? –

+0

それは本の長さによって異なりますが、タイトル百科事典の本をたくさん使って覚えています。平均してそれぞれ約10MBのプレーンテキストファイルでした。あなたが探しているデータセット全体ではないことは分かっていますが、それらに参加して希望するサイズを考え出すことができます。 – Overkillica

+0

偉大なことは、英語の書籍であり、無作為な単語の集まりではないため、実際の状況で検索アルゴリズムを試すのに最適なデータセットだからです。 – Overkillica

2

私はDVD of Project GutenbergをダウンロードするBitTorrentのを使用してお勧めします。彼らは主にASCII形式の数GBのパブリックドメインテキストを持っています。

+0

ありがと...それを調べます。 –

関連する問題