2016-12-19 8 views
-2

私は、可変長文字列をPython機械学習データに組み込もうとしています。文字列は、3〜1000以上の大文字の21文字で構成されますが、通常は50文字から500文字です。この文字列は、システム内の残りの数値データが導出されるため、私はこのデータを既存の機械学習システムに追加したいと考えていました。私は、この情報をシステムに組み込むことによって、予測の精度を高めることができると期待しています。python機械学習可変長文字列修飾子

使用される機械学習システム:xgboostのグラジエントブーストランダムフォレスト、TheanoとKerasの組み合わせを使用するニューラルネットワーク。

例(空間は、明確にするためにセットの数千のいずれかを加えた)データ: 0.20783132530120485、0.0、0.14759036144578314、0.0、20.500779795353044、-0.012854043345111421、20.856396736982024、-0.019526697858776032、0.17055840352519377MLKQLLTVVLLAICLINVQAQQLTPPAGTFRLGISKGTDSHWLAPQEKVKGIAFRWKALPDTRGFILEVAVTSLQQADTLFWSFGNCQPDMDINVFSVEGQAFTCYYGESMKLRTLQAVTPTDDIRLSNGRQDKTPLLLYESGKRTDRPVLAGRCPLAANSKLYFCFYEQNARADYNYFMLPDLFAKIDESKHSKK、3907.222610216657、0.0、 12.957234316695068、260.35949614307845、70.22897891511785、0.0、3600.1557026363694、6.5695226674325005、8.875805301569174E-9、9.435201047407471E-8、-805.7695207777524、-0.386030775564303、2.4360867449746193E-4、0.001535275768898734、-899.103861896121、0.37012002714844283、41.3 0865237441297、0.6880193813262029、0.07901855928913903、0.36786993202927、0.027022889508663273、0.20983595671723698、0.004272043781893587、2.6548618772402452、0.8298948072745838、0.4297709789614357、0.6592421241850477、0.7323455585665695、0.0036084082526088635、1235.9608595043105、-686.3410939120973、517.5695296420419、0.0、1383.9587599495007、137.6709125154875、48.15897140522527、11.169320592630035、0.0017212126730760488、390.0、576.0、162.0 、425.0、-2337.586240324919、-1216.645095553551、-220.7658611143325、-254.87026759361316、-120.44151020211892、-262.1549293391522、-262.70857652215483、-119.78950303227985、-14.056523664351944、-16.03338970562135、-15.397779250982714、-4.190420980506957、-52.306453723320466、-17.804935707496412、-1602.015046949609、-695.3200007491427 -282.2011792651323,624.4938669353348,319.12737432671895、-91.65456051126749,190.69831510254096,220.08361973544459,2971.554863316476,262.57174547648316,2708.983117839995,0.05.8482741129097017、-132.6820059271 6775、-4341.712499207881、9.524948063475861、4.203276705216416、-4.307639899059003、3.1644632985485313、2.81419659034428、2.963504627059134、3.4913480163824713、0.0031707417031467916、0.0、0.0、0.0、0.0、0.0、0.0、0.0015698345827278798、0.0016205522602160554、-1.9645139797143648E5、0.9504047512545211、0.9833528676885283、0.9597468652322548、0.9865496952192033、 0.9175964036143727、16312.662271951838、15062.220268073073、1250.4420038787648、0.0、2.7244897959183674、0.0、0.0、0.0、10.306122448979592、0.0、29.26530612244898、0.0、7.797822706065319、0.0、228.06859068818272、0.4027714206386829、1652.1493757294986、3410.905281836304、0.5612244897959183、0.844845002268259、0.5834395722203105、1.0、1.0、1797.0、 -30.37、-0.85、-0.837、0.344、-0.32、-0.05、

[最初の9つのフィールド(イタリック体)は派生データで残りの数値データを評価します(可能な "Y")、次のフィールド(太字)は組み込む必要がある文字列データ、残りはメイン機械学習(「X」)への入力]

+0

学習者が取得する情報が固定長であることを確認する方法を見つける必要があります。すなわち情報の機能化(単語の袋、k-meansなど) – eqzx

答えて

0

文字列はどのような情報を提供するのか考える必要がありますか?これはどういうわけか数値で数値化できますか?

文字列から情報を読み取ることができない場合、なぜマシンはそのようにする必要がありますか?