2011-11-18 15 views
6

私はニュース分類でプロジェクトをやっています。基本的には、事前定義されたトピック(スポーツ、政治、国際など)に基づいてニュース記事を分類します。システムを構築するには、システムをトレーニングするための無料のデータセットが必要です。ニュース記事データセット

これまでのところ、グーグルで2,3時間後にhereというリンクが見つかったのは、thisです。これで十分ですが、私はもっと見つけようと考えています。

注意私が欲しいのデータセットその:

  1. は、完全なニュース記事だけでなく、タイトル
  2. は、XMLまたはデシベル

、.txt形式で英語

  • ではないです含みます誰か助けてくれますか?

  • 答えて

    0

    あなたはそれを構築することができます、Python/Perl/PHPスクリプトを書いて検索を実行すると、答えを見つけたら正規表現で属性を分離することができます。簡単ではありませんが楽しいはずです。最後に、このデータセットを私たちと共有することができます。

    +1

    ええ、私はプロジェクトに忙しいので、データセットを見つけようとしていますので、やることを減らそうとしています。さらに、私はPython/Perl/PHPでスクリプトを書く方法を知らない。 – Hearty

    1

    Reuters21578を試しましたか?テキスト分類の最も一般的なデータセットです。これはSGMLで形式化されていますが、構文解析してtxt形式に変換するのは簡単です。

    関連する問題