私はcsvから得られたデータに対して単純な線形回帰のためのPython scikit-learnを使用しています。 Input contains NaN, infinity or a value too large for dtype('float64').
Scikit-learn:フィッティングモデルの誤差 - 入力にNaN、無限大、またはfloat64の値が大きすぎる
どのように私はこのエラーを削除する必要があります。
reader = pandas.io.parsers.read_csv("data/all-stocks-cleaned.csv")
stock = np.array(reader)
openingPrice = stock[:, 1]
closingPrice = stock[:, 5]
print((np.min(openingPrice)))
print((np.min(closingPrice)))
print((np.max(openingPrice)))
print((np.max(closingPrice)))
peningPriceTrain, openingPriceTest, closingPriceTrain, closingPriceTest = \
train_test_split(openingPrice, closingPrice, test_size=0.25, random_state=42)
openingPriceTrain = np.reshape(openingPriceTrain,(openingPriceTrain.size,1))
openingPriceTrain = openingPriceTrain.astype(np.float64, copy=False)
# openingPriceTrain = np.arange(openingPriceTrain, dtype=np.float64)
closingPriceTrain = np.reshape(closingPriceTrain,(closingPriceTrain.size,1))
closingPriceTrain = closingPriceTrain.astype(np.float64, copy=False)
openingPriceTest = np.reshape(openingPriceTest,(openingPriceTest.size,1))
closingPriceTest = np.reshape(closingPriceTest,(closingPriceTest.size,1))
regression = linear_model.LinearRegression()
regression.fit(openingPriceTrain, closingPriceTrain)
predicted = regression.predict(openingPriceTest)
最小値と最大値は、しかし、私はこのエラーとValueErrorを取得しています 0.6 41998.0 2593.9
0.0として示したていますか? 上記の結果から、無限またはNan値が含まれていないことは事実です。
この解決策は何ですか?
編集:すべての株式-cleaned.csvがhttp://www.sharecsv.com/s/cb31790afc9b9e33c5919cdc562630f3/all-stocks-cleaned.csv
再現可能な例を提供してください。 – iled
@iled all-stocks-cleaned.csvはhttp://www.sharecsv.com/s/cb31790afc9b9e33c5919cdc562630f3/all-stocks-cleaned.csvから入手できます –