0
でマイスパークバージョンを線形回帰を使用する方法を見つけ出すことはできません1.6
私のPythonのバージョンである2.7はpyspark 1.6&python2.7
私のデータは、以下の
x = [300,400,500,500,800,1000,1000,1300]
y = [9500,10300,11000,12000,12400,13400,14500,15300]
+----+-----+
| x| y|
+----+-----+
| 300| 9500|
| 400|10300|
| 500|11000|
| 500|12000|
| 800|12400|
|1000|13400|
|1000|14500|
|1300|15300|
+----+-----+
私の間違ったコードです
:、from pyspark.mllib.linalg import Vectors
from pyspark.sql import SQLContext
from pyspark.ml.regression import LinearRegression
sqlContext = SQLContext(sc)
#my data
x = [300,400,500,500,800,1000,1000,1300]
y = [9500,10300,11000,12000,12400,13400,14500,15300]
df = pd.DataFrame({'x':x, 'y':y})
df_spark=sqlCtx.createDataFrame(df)
lr = LinearRegression(maxIter=50, regParam=0.0, solver="normal", weightCol="weight")
model = lr.fit(df)
私は、この例のように実行したいです
データをサンプルデータ型に転送する方法を知ることができます。
+-----+------+---------+
|label|weight| features|
+-----+------+---------+
| 1.0| 2.0| [1.0]|
| 0.0| 2.0|(1,[],[])|
+-----+------+---------+
すべてのコメントをいただければ幸いです。
ありがとうございます。
あなたは 'VectorAssembler'を必要とし、ここを参照してください:http://stackoverflow.com/a/39505883/4964651 – mtoto
は私が試してみましょう、ありがとうございます。 私が成功すれば、私は私のコードを送り返します。 –