0

私は研究をしており、SOMアルゴリズムを使っていくつかの論文を読んでいます。私は人々が自分のデータセットをSOMのトレーニング/テストセットに分割するという論理を理解していません。たとえば、C4.5デシジョンツリーが使用されている場合、訓練された構造には、新しいデータセット(テスト)がそこでデータを分類するときに適用されるいくつかのルールが含まれています。しかし、システムがSOMを介して訓練された後、どのようなルールや類似のものが生成されますか? SOMシステムにデータの100%を適用すると、最初にトレーニングに30%を使用し、次にテストに70%を使用すると、どのような違いがありますか?事前にお返事ありがとうございます。SOMのトレーニング/テストにデータを分割する理由は何ですか?

答えて

0

将来的に新しいデータにさらされるはずのデータに依存するすべてのシステムについて、テストを行うために既存のデータの一部を保持することで、デプロイ後の予測方法を堅牢に予測することができます。 SOMでは、特定のデータ埋め込みを学習します。トレーニングのためにすべてのデータを使用し、後でこの訓練されたSOMをデータの前に見たことがない場合は、どのように動作するかは保証されません。ホールドアウトを使用すると、制御された環境でこれをテストすることができます。データの一部についてSOM表現を訓練し、それを埋め込み(テスト)に適用すると、「新しいデータを取得し、私のSOMはそれです "。監視するかどうかに関係なく、データを使用するすべての単一アルゴリズムにも同じことが当てはまります。このモデルに基づいて何かを展開する場合は、自分のソリューションに自信を持たせるためのテストセットが必要です。一方、「閉じた」データセットの探索的分析を行っているだけの場合は、監督されていないメソッドをすべてに単純に適用することができます(「この特定のデータセットの構造は何ですか」と尋ねている場合)

0

SOM(監督されていない機械学習)が他の機械学習技術のように扱われる理由はわかりません。"...訓練された構造には、新しいデータセット(テスト)が適用されるときに適用されるいくつかのルールが含まれていますそこにデータを分類するために..」一般的に

を、(SOMのものを含む)トレーニング中に、あなたは、私たちに(final weightsのセットで を終わることを目指しあなたの言葉。 "規則は に適用されます")、これまでに見えなかった新しいデータセットに使用されます。 トレーニングセットには、幅広い機能が組み込まれている必要があります(通常、適用すると予想される種類のデータを代表するものが )。

これにより、final weightsは可能な限り正確で信頼できるものになります。 について「システムがSOMを介して訓練された後、どのような規則などが生成されますか?」final weightsは、SOMの対象となる新しいデータに適用される「ルール」を構成します。したがって、SOMは、final weightsの値に基づいて結果を返します。

訓練とテストにデータを分割することで、訓練されたSOMの実稼働を開始する前に、訓練されたSOMのパフォーマンスが確実に向上します。

テストセットでは、訓練されたSOMのパフォーマンスを確認できます。トレーニングセットの結果とテストセットの結果を比較します。これは、訓練を受けたSOMを適用して使用する前に重要です。トレーニングセットとテストセットの結果の間に大きな相違がある場合は、トレーニングセットを確認してください。おそらく、トレーニングセットに多様な機能が含まれているはずです。
トレーニングとテストセットを設定することで、実装時にSOMのパフォーマンスを保証できます。hereを述べたように:

「...私たちは私たちの予測モデルのパフォーマンスの を正直な評価を提供するために、テスト用のパーティションを作成 トレーニングデータに基づいて結果の 数学的推論と操作のいかなる量ができなくなります。経験豊かなオブザーバーに説得している」

関連する問題