私は研究をしており、SOMアルゴリズムを使っていくつかの論文を読んでいます。私は人々が自分のデータセットをSOMのトレーニング/テストセットに分割するという論理を理解していません。たとえば、C4.5デシジョンツリーが使用されている場合、訓練された構造には、新しいデータセット(テスト)がそこでデータを分類するときに適用されるいくつかのルールが含まれています。しかし、システムがSOMを介して訓練された後、どのようなルールや類似のものが生成されますか? SOMシステムにデータの100%を適用すると、最初にトレーニングに30%を使用し、次にテストに70%を使用すると、どのような違いがありますか?事前にお返事ありがとうございます。SOMのトレーニング/テストにデータを分割する理由は何ですか?
答えて
将来的に新しいデータにさらされるはずのデータに依存するすべてのシステムについて、テストを行うために既存のデータの一部を保持することで、デプロイ後の予測方法を堅牢に予測することができます。 SOMでは、特定のデータ埋め込みを学習します。トレーニングのためにすべてのデータを使用し、後でこの訓練されたSOMをデータの前に見たことがない場合は、どのように動作するかは保証されません。ホールドアウトを使用すると、制御された環境でこれをテストすることができます。データの一部についてSOM表現を訓練し、それを埋め込み(テスト)に適用すると、「新しいデータを取得し、私のSOMはそれです "。監視するかどうかに関係なく、データを使用するすべての単一アルゴリズムにも同じことが当てはまります。このモデルに基づいて何かを展開する場合は、自分のソリューションに自信を持たせるためのテストセットが必要です。一方、「閉じた」データセットの探索的分析を行っているだけの場合は、監督されていないメソッドをすべてに単純に適用することができます(「この特定のデータセットの構造は何ですか」と尋ねている場合)
SOM(監督されていない機械学習)が他の機械学習技術のように扱われる理由はわかりません。"...訓練された構造には、新しいデータセット(テスト)が適用されるときに適用されるいくつかのルールが含まれていますそこにデータを分類するために..」一般的に
を、(SOMのものを含む)トレーニング中に、あなたは、私たちに(
final weights
のセットで を終わることを目指しあなたの言葉。 "規則は に適用されます")、これまでに見えなかった新しいデータセットに使用されます。 トレーニングセットには、幅広い機能が組み込まれている必要があります(通常、適用すると予想される種類のデータを代表するものが )。
これにより、final weights
は可能な限り正確で信頼できるものになります。 について「システムがSOMを介して訓練された後、どのような規則などが生成されますか?」final weights
は、SOMの対象となる新しいデータに適用される「ルール」を構成します。したがって、SOMは、final weights
の値に基づいて結果を返します。
訓練とテストにデータを分割することで、訓練されたSOMの実稼働を開始する前に、訓練されたSOMのパフォーマンスが確実に向上します。
テストセットでは、訓練されたSOMのパフォーマンスを確認できます。トレーニングセットの結果とテストセットの結果を比較します。これは、訓練を受けたSOMを適用して使用する前に重要です。トレーニングセットとテストセットの結果の間に大きな相違がある場合は、トレーニングセットを確認してください。おそらく、トレーニングセットに多様な機能が含まれているはずです。
トレーニングとテストセットを設定することで、実装時にSOMのパフォーマンスを保証できます。hereを述べたように:
「...私たちは私たちの予測モデルのパフォーマンスの を正直な評価を提供するために、テスト用のパーティションを作成 トレーニングデータに基づいて結果の 数学的推論と操作のいかなる量ができなくなります。経験豊かなオブザーバーに説得している」
- 1. mixとmaxを使ってデータを分割する理由は何ですか?
- 2. ハング割引:何らかの理由
- 3. 返されるデータが同じ理由は何ですか?
- 4. BizTalkソリューションを複数のプロジェクトに分割する理由
- 5. com.force.api access_tokenを渡さずにデータを取得する理由は何ですか?
- 6. TCP/IP経由で送信する前にアプリケーション内のデータをセグメント化する理由は何ですか?
- 7. 分散テンソルフロー学習でパラメータサーバを使用する理由は何ですか?
- 8. match.errorの理由は何ですか?
- 9. sqliteロールバックの理由は何ですか?
- 10. コールバックは、何らかの理由でpyosmiumの差分ダウンローダ
- 11. Instagramリアルタイム更新タグ - 空のデータを取得する理由は何ですか?
- 12. Giniインデックスがデシジョンツリーのバイナリ分割を考慮する理由
- 13. gVimでフォントを無効にする理由は何ですか?
- 14. SOM(Self Organizing Maps)とK-Meansの違いは何ですか?
- 15. iPhoneクラッシュログ - 理由は何ですか?
- 16. 理由は何ですか:laravel 5
- 17. テーブル分割とは何ですか?
- 18. ファイルのデータは、何らかの理由で関数
- 19. 正しいデータ型を使用する理由は何ですか?
- 20. l18nにドメインを使用する理由は何ですか?
- 21. Rails:メソッドをプライベートにする主な理由は何ですか?
- 22. をstrに変換する理由は何ですか?
- 23. 'scala'ディレクトリにクラスファイルをネストする理由は何ですか?
- 24. LISPにドットペアを導入する理由は何ですか?
- 25. スレッドが有用な理由とその役割は何ですか?
- 26. 何故か何かの理由で
- 27. エミュレータが自分のデバイスよりランダムでない理由は何ですか?
- 28. Rubyでデータを分割して整理する方法
- 29. スーパークラスのメソッドをオーバーライドする理由は何ですか?
- 30. クエリの選択テーブルをロックする理由は何ですか?