私は報告書に記載されている症状に基づいて医学的な報告書を分類しようとしています。私がしているステップは、ニューラルネットワークのパフォーマンスの最適化
1)各医学レポートから症状を抽出する。
2)、トータルの用語は、これまでの総用語はこれまでのところ、3700
3)が診断され、これらの放電の要約に記載されたすべての病気のセットを作成しているすべての医療レポートから抽出されたすべての症状のセットを作成現在、すべての医療レポートを繰り返し、各レポートとその診断用に1つのホットベクトルを作成します。私は5000の文書を持っています。
症状としては、5000 x 3700 の行列が得られます。各行は単一のドキュメントを表し、各列は症状を示します。症状が文書に存在する場合、列の値が1で、それ以外の値がゼロになる症状が診断のために
です、私はX 1500 5000
I am using a backward propagating neural network for training. The network has 3700 input neurons, 1 hidden layer and 1500 output neurons.
このコードは、ここからhttp://jrmeyer.github.io/tutorial/2016/02/01/TensorFlow-Tutorial.htmlという分類子の作成に使用されています。
問題は、私はそれを訓練どんなに(これまでのところ、私は25000のエポックで試してみました)、私は非常に悪い結果を取得していますということです、
出力は、最大確率値(1)を持つ160+ラベルの中に私は5つのラベルを期待していた。
私は間違っているかもしれない何か、または結果を改善するために何をすべきですか?
アップデート:最小データ(100ドキュメントと85000エポック)でネットワークをテストしようとしました。
問題が発生する可能性がある1つの問題は、各ドキュメントから最大15-20語が抽出されるため、1つのホットベクトルには1と3680が含まれています。これが問題になる可能性がある場合は、誰かに提案することはできますか
おかげで、実際に私は1000件の文書のカスタマイズされたデータでテストしているを増やします。プラス私も質問を更新しました。 – Shahzeb
ネットワークの構造を追加できますか? –
私はこのチュートリアルのコードを使用しています。http://jrmeyer.github.io/tutorial/2016/02/01/TensorFlow-Tutorial.html唯一の変更点は、2つのラベルの代わりに複数のラベルを使用していることです。 – Shahzeb