私は計算と操作を、大体7500行と30000列の非常に大きなテーブルまたはマトリックスで実行する必要があります。巨大マトリックス/テーブルを表現する
文書ID |ワード1 |単語2 |単語3 | ... |単語30000 |ドキュメントクラス
0032 1 0 0 1 P
つまり、大部分のセルにブール値(0と1)が含まれます。
派生語や特徴選択(削減技術を使って、単語の数を減らすことを)useingされるだろう行われる必要がある計算だけでなく、計算クラス単位または単語など
何I行列を表現するためのOOPモデルを設計し、その後オブジェクトをディスクに直列化して、後でそれらを再利用できるようにすることが念頭に置かれています。たとえば、私は各行または各列、またはおそらく別のクラス内に含まれている各交差点のオブジェクトのオブジェクトを持っています。
XMLで表現することを考えましたが、ファイルサイズが問題になることがあります。
私はここで私のアプローチでポットミスをしているかもしれません - 私は正しい道にいるか、そのような大きなデータコレクションを操作するためのより良い実行方法がありますか?
ここで重要な問題は、パフォーマンス(反応時間など)とデータの冗長性と完全性です。明らかに私はディスクにデータを保存する必要があります。
タイトルに「C#」などのプレフィックスを付けないでください。それがタグのためのものです。 –
これは7500 x 30000の数値の行列ですか、それとももっと複雑なものを表していますか?あなたの質問に対する良い答えは、このテーブルまたはマトリックスの内容と構造に関するより多くの情報に依存します。 –
29998列には1または0が含まれ、残りの2つには文字列が含まれます。 – petestar