2017-04-27 14 views
1

通常、Kerasを使用する場合、ニューラルネットワークを訓練するために使用されるデータセットにラベルが付けられます。Kerasでのラベルなしデータセットの使用

I各行あたり12フィールドを有する患者の100,000行を有する場合、この患者は、糖尿病ではない、または全く例えば、もし、最後のフィールドが表示されます(0または1)。 そして、訓練が終わったら、私は新しい記録を挿入し、この人が糖尿病であるか否かを予測することができます。

しかしラベルの付いていないデータセットの場合、何らかの理由でデータにラベルを付けることができない場合、ニューラルネットワークを訓練して、それらが通常のレコードであり、これに一致しない新しいレコードネットワークは悪意のあるか受け入れられませんか?

答えて

0

これは1クラス学習と呼ばれ、通常は自動エンコーダーを使用して行われます。トレーニングデータでオートエンコーダをトレーニングして、データ自体を再構築します。この場合のラベルは入力そのものです。これにより、再構成エラーが発生します。 https://en.wikipedia.org/wiki/Autoencoder

今、あなたは、再構成誤差に応じて、データが良性であるかどうかのしきい値を定義することができます。良いデータの再構築は、不良データの再構築よりも優れていることが期待されます。

編集教師と教師なし学習の間のパフォーマンスの違いについての質問に答えます。私はそれを試したことがないと私は最終的に精度がために何が起こっているかわからないので

これは、いずれかの確信を持って言うことができません。しかし、大まかな見積もりでは、より多くの情報がアルゴリズムに供給されるため、教師付き学習は訓練されたデータでよりよく機能します。しかし、実際のデータがトレーニングデータと大きく異なる場合、ネットワークは実際にはパフォーマンスが低下しますが、オートエンコーダーは異なるデータでよりよく対処する傾向があります。さらに、神経回路網を確実に訓練するためには、経験則ごとに5000の例が必要です。ラベル付けには時間がかかることがあります。しかし、とにかくテストするにはデータが必要になります。

+0

これはKerasを使用して展開できますか? 私は通常のパケットの巨大なデータセットを持っている侵入検知システムを開発しています。通常の場合や悪意のある場合に新しい着信パケットを予測する方法でnnをトレーニングしたいと思います。 しかし、私は通常のパケットしか持っていません。 –

+0

はい、あなたのシステムがどれだけうまくいくかを確認するためのテストデータはありません。 –

+0

私は自分のデータセットをトレーニング(70%)とテスト(30%)に分けることができますが、発見されたオートエンコーダーを使った教師なし学習はすべて画像上にあると考えています。ありがとうございました:) –

0

あなたは2つの異なるモデル合う必要があるようですね:これらの両方のために

糖尿病であることを、患者の可能性の予測のために不正なレコード検出

  • モデルの

    1. モデルをモデルには、ラベルが必要です。最初のモデルでは、レコードが良いか悪い(悪意のある)かどうかを示し、2番目のレコードは患者が糖尿病であるかどうかを示します。

      不正なレコードを検出するために、あなたは、単純なロジスティック回帰やSVMが適切に実行することを見つけることがあります。

  • +0

    こんにちは親愛なるが、事はすべてのパケットが挿入されるように、私は深い学習に基づく侵入検知システムを開発しています、私は通常のパケット(巨大なデータセット)のデータセットを持っていると私はそれのためにニューラルネットワークを訓練したいということです将来的には正常または悪意のある場合に予測されます。 これで、nnを訓練する悪意のあるパケットはありません。通常のパケットしかありません。 –

    +0

    私は参照してください。上記の@Thomasに記載されているようにオートエンコーダーを使うのは良い選択です。再構成エラーは、トレーニング中のサンプル(不良)レコードの代理として使用できます。 – dhinckley

    関連する問題