機械学習アルゴリズムの新機能です。私はscikitのウェブサイトや他のSO投稿を広く読んで、RandomForestClassifierとLinearSVCを使って私の最初の機械学習アルゴリズムを構築しました。単語の頻度を他のデータマシンのフォーマットと結合python
私は医療メモに取り組んでいます。患者の各滞在は、合併症(出血、感染、心臓発作...)に対応するコードに関連付けられます(出血、感染、心臓発作...)
CountvectorizerとtfidfTransformerでフィッティングされ、コードのしかし、私は訓練データセットにもっと多くのデータを追加したいと思っています:長さ、操作の数、操作のタイトル、ICUの滞在時間など...
ウェブとSOを解析した後、すべての連続/バイナリ/スケーリングされた値を単語周波数配列に追加することによって、
例:[0,0,0.34,0,0.45,0, 2, 45]
(前の1試合countvectorizerとtfdif.fit_transform(train_set)は
しかし、これはデータを結合する総方法、および膨大な数であるように私には思えるのに対し、最後の2つの数字は、データを追加します。言葉の私がように私のデータを設定しようとしました
他人にデータをマスクすることができます:[[0,0,0.34,0,0.45,0],[2],[45]]
が、それは動作しません
私は、Web、ない本当の手がかりを捜し、私は最初のものではないかもしれないにもかかわらず。この問題に直面しています...:
あなたの助けのためのおかげ
編集:あなたの詳細な貴重な答えを
感謝。本当に感謝しています。しかし、正確に範囲0-1:{predict_proba}の値(http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.predict)ですか?私はスコアが予測モデルの精度であることを理解しました。それでは、各変数に応じた予測をすべて行うと、それらの平均はありますか?最終的には、私は複数の出力を扱っているので、出力のそれぞれについて予測を得ることができるので問題はないと思います(btw predict_proba(X)は[array([[0.、1.。]) )、array([[0.2,0.8]]).....]をランダムなフォレストツリー分類子で置き換えます。数字の1つが出力の確率であると思いますが、まだこれを調べていません!)
お寄せいただきありがとうございます。本当に感謝しています。予測配列に関する質問のための最初の投稿を編集しました。 – Ryan
上記の編集済みの投稿 – flyingmeatball
ありがとう、私は別の答え(下記)を追加しました。私は本当にあなたがどのように "感情"を計算するのか分かりません! – Ryan