2017-01-10 11 views
0

のミックスでScikit-学び、私は次の形式のCSVとして私に利用できる自分のデータを、持っている(これはサンプルライン、数1万の一つである)テキストや数値データ

FEIPDDVPLPAGWEMAKTSSGQRYFLNHIDQTTTWQDPRKGPPPY,0,0,13,0,0,4,12,16 

各テキスト文字列は、この種の文字列に似ています。数値の場合と同じです。

私は、テキストとの相関に基づいて数値を予測する方法を探しています。

scikit-learnでこれを行う方法はありますか?

+1

テキストの意味は?これ以上の文脈がなければこの質問に答えることは非常に難しいです。私たちは '相関関係'の意味を理解しなければならない –

+0

このテキストは、タンパク質の一次構造を表すことを意図しています。他の値はそのタンパク質に関連する値です – d909

+0

数値は任意の値を持つことができますか、または可能な値が固定されていますか(つまりクラスタリング/分類の問題)? –

答えて

0

あなたの最善の策は、文字列にいくつかの集計関数を生成し、それらを残りの値を予測する機能として使用することです。単純な集計関数の例は、各文字の出現数、長さ、最初の文字、最後の文字、最も一般的な文字、おそらく各文字のペア間の遷移の数などである。

これは、特定の地域の背景知識を持つ。

関連する問題