map<string, int>
のcassandraカラムファミリからデータを読み込み、それをPandasデータフレームに変換したいと考えています。さらに、私は虹彩の種の分類でhereと記載されているように、Pythonでモデルを訓練するために使用したい。Cassandra MapをPandas Dataframeに変換する方法
私はcsvを使用してモデルをトレーニングしていました。そして、それはこのように見えただろう:
label, f1, f2, f3, f4, f5
0 , 11 , 1, 6 , 1, 2
1 , 5, 5, 1 , 2, 6
0 , 12, 9, 3 , 6, 8
0 , 9, 3, 8, 1, 0
カサンドラ列ファミリ:
FeatureSet | label
{'f1': 11, 'f2': 1, 'f3': 6, 'f4': 1, 'f5': 2} | 0
{'f1': 5, 'f2': 5, 'f3': 1, 'f4': 2, 'f5': 6} | 1
{'f1': 12, 'f2': 9, 'f3': 3, 'f4': 6, 'f5': 8} | 0
{'f1': 9, 'f2': 3, 'f3': 8, 'f4': 1, 'f5': 0} | 0
コード:
import pandas as pd
from sklearn2pmml import PMMLPipeline
from sklearn.tree import DecisionTreeClassifier
from cassandra.cluster import Cluster
CASSANDRA_HOST = ['172.16.X.Y','172.16.X1.Y1']
CASSANDRA_PORT = 9042
CASSANDRA_DB = "KEYSPACE"
CASSANDRA_TABLE = "COLUMNFAMILY"
cluster = Cluster(contact_points=CASSANDRA_HOST, port=CASSANDRA_PORT)
session = cluster.connect(CASSANDRA_DB)
sql_query = "SELECT * FROM {}.{};".format(CASSANDRA_DB, CASSANDRA_TABLE)
df = pd.DataFrame()
for row in session.execute(sql_query):
What should i write here and get X_train, Y_train in pandas dataframe
iris_pipeline = PMMLPipeline([
("classifier", DecisionTreeClassifier())
])
iris_pipeline.fit(X_train, Y_train)
すでにこの方法を試しました。しかし、 'print df'は出力のマップのキー、すなわち(f1、f2、f3、f4)のみです。ここで 'df.values'を出力するときに' [OrderedMapSerializedKey([(u'f1 '、11)、(u'f2'、1)、(u'f3 '、6)、(u'f4'、 1)、(u'f5 '、2)])] 'となる。私はこれらの値を使って訓練することはできません。それは私に最初の行のヘッダーと一緒に数値を返す必要があります。ちょうど私がcsvで言及したように – Naresh