2017-09-14 6 views
0

2つのCSVデータソースがあります。私はモデルを構築する前にいくつかのデータフォーマットを行う必要があります。Tensorflowを使用して別のデータセットから値を検索する方法は?

============================================== =

データソース1: Plant.csv

異なる植物の特徴を。

PlantID, INT/
PlantName, STR/
Color, STR/
Size, FLOAT/
Cost, FLOAT/
Category, INT/
Weight, FLOAT/
Expire, INT/
STATUS, INT 

データソース2: [201601.csv、201602.csv、201603.csv ....]

植物

PlantID, INT/
SalesPerson, STR/
Date, DATETIME/
Qty, INT/
Price, FLOAT/
Gardener, STR/
Package1, BOOL/
Package2, BOOL/
Package3, BOOL 

の月次受注販売=====

:==========================

は今、私はこのような単一のファイルにこれらのファイルを結合するつもりですキーとしてPlantIDを調べる

PlantID, INT/
PlantName, STR/
Color, STR/
Size, FLOAT/
Cost, FLOAT/
Category, INT/
Weight, FLOAT/
Expire, INT/
STATUS, INT/
SalesPerson, STR/
Date, DATETIME/
Qty, INT/
Price, FLOAT/
Gardener, STR/
Package1, BOOL/
Package2, BOOL/
Package3, BOOL 

毎月何百万もの販売記録があります。

誰がtensorflowでそれを作る方法をアドバイスしてもらえますか?

答えて

0

Tensorflowはデータベースに参加するためのものではありません。あなたが本当にpythonでそれをしたい場合は、パンダを使用することができます。

import pandas as pd 


df1 = pd.read_csv('Plant.csv') 
df1.set_index(['PlantID']) 
df2 = pd.read_csv('201601.csv') 
df2.set_index(['PlantID']) 

df3 = pd.concat([df1, df2], axis=1) 

Tensorflowは、計算、グラフを作成し、それらを効率的に実行するためです。一般的には、このグラフの入力はすでに数が少ない配列であると仮定します。

pandasは、リレーショナルデータベースと同じように、Python内のリレーショナルデータで動作するようになりました。実際のリレーショナルデータベースの中でクエリ言語を使って作業するオプションがあれば、これはパンダより計算効率が高いです。

関連する問題