0
のミックスでScikit-学び、私は次の形式のCSVとして私に利用できる自分のデータを、持っている(これはサンプルライン、数1万の一つである)テキストや数値データ
FEIPDDVPLPAGWEMAKTSSGQRYFLNHIDQTTTWQDPRKGPPPY,0,0,13,0,0,4,12,16
各テキスト文字列は、この種の文字列に似ています。数値の場合と同じです。
私は、テキストとの相関に基づいて数値を予測する方法を探しています。
scikit-learnでこれを行う方法はありますか?
テキストの意味は?これ以上の文脈がなければこの質問に答えることは非常に難しいです。私たちは '相関関係'の意味を理解しなければならない –
このテキストは、タンパク質の一次構造を表すことを意図しています。他の値はそのタンパク質に関連する値です – d909
数値は任意の値を持つことができますか、または可能な値が固定されていますか(つまりクラスタリング/分類の問題)? –