2010-11-30 10 views
1

MATLAB形式のテキスト分類タスクのための信頼できるデータセットを探しています。 私はいくつかの実験をしたいと思いますし、テキストの前処理と特徴ベクトルの作成に時間をかけすぎたくありません。準備が整っていなければならないので、アルゴリズムにプラグインすることができます。私はここにロイターデータセット用のMATLABファイルを見つけました:link textMATLABのテキスト分類データ

すべてがここに用意されていますが、私はこれのサブセットを使いたいと思います。この「fea」には、各文書の特徴ベクトルが含まれています。しかし、それは通常の行列ではないようです。私はこの "fea"の中で上位1000の文書を選択したいと思っています。ダウンロードしてMATLABにロードするだけであれば、私の言いたいことが分かります。 それが可能であれば、上記のデータセットまたは代替データセットの解決策が必要です。 ありがとうございます。

+0

私はこのコンピュータにMatlabを持っていないので、「ダウンロードしてMATLABにロードすれば、私の言いたいことが分かります。」と私にとってはあまり役に立ちません。上位1,000件のドキュメントを選択しようとすると何が起こるか説明できますか? –

答えて

2

sparse matrixとして保存されます。最初の1000枚のドキュメント(行)を抽出し、そしてあなたが十分なスペースを持っている場合、あなたは完全な密行列に変換することができますので、あなたが見ることができる

>> whos 
    Name    Size     Bytes Class  Attributes 

    TF   1000x18933   151464000 double    
    fea   8293x18933    4749196 double sparse  
    gnd   8293x1     66344 double    
    testIdx  2347x1     18776 double    
    trainIdx  5946x1     47568 double   

load Reuters21578.mat 
TF = full(fea(1:1000,:)); 

は、私たちが持っている変数を確認できますTFは約150MBです。

それ以外

、残りは自明である:

  • fea:用語頻度行列、行は文書で、列は用語
  • gnd次のとおりです。各ドキュメントのカテゴリ、numel(unique(gnd)) == 65
  • trainIdx/testIdx:分類目的のインスタンス(ドキュメント)の分割で、行のインデックスを含み、次のように使用されます。tr = fea(trainIdx,:); tt = fea(testIdx,:);
関連する問題