インデックス作成と検索タスクを実行するために、5〜10 GBの範囲の平易な英文テキストファイル(txt)を検索しようとしています。そのようなデータセットをダウンロードできるオープンソースはありますか?5〜10 GBのテキストファイルをダウンロードするには?
おかげ
Wajih
インデックス作成と検索タスクを実行するために、5〜10 GBの範囲の平易な英文テキストファイル(txt)を検索しようとしています。そのようなデータセットをダウンロードできるオープンソースはありますか?5〜10 GBのテキストファイルをダウンロードするには?
おかげ
Wajih
私は数年前に私のマスターのための研究をするときに同じことが必要でした。私は何です。このサイトから複数の本を組み合わせた:
ありがとう....実際のデータセットのサイズを教えてください。圧縮されていない場合? –
それは本の長さによって異なりますが、タイトル百科事典の本をたくさん使って覚えています。平均してそれぞれ約10MBのプレーンテキストファイルでした。あなたが探しているデータセット全体ではないことは分かっていますが、それらに参加して希望するサイズを考え出すことができます。 – Overkillica
偉大なことは、英語の書籍であり、無作為な単語の集まりではないため、実際の状況で検索アルゴリズムを試すのに最適なデータセットだからです。 – Overkillica
Amazon S3の上でこのfreebase.comデータ・ダンプをチェックhttp://aws.amazon.com/datasets/2320?_encoding=UTF8&jiveRedirect=1
私はDVD of Project GutenbergをダウンロードするBitTorrentのを使用してお勧めします。彼らは主にASCII形式の数GBのパブリックドメインテキストを持っています。
ありがと...それを調べます。 –
巨大なハッシュテーブルは、どのようなあなたを探しているということでしょうか? –
@PatrickLorio - 私はプレーンテキストを探しています。大規模なハッシュテーブルではありません。私は単純にディスクを純粋なテキストとして読み込み、解析はしません。私はMS-Wordファイルとソートが私の必要としているものではないことを意味します。 –