私は42,457行と785列を含むRのデータセットを扱っています。最初の列はバイナリ応答変数(label
と呼ばれます)で、残りの列はバイナリ機能です。H2Oデータフレームのカラム制限?
rsparkling
(hereと記載)を使用してロジスティック回帰モデルに適合しようとしましたが、エラーが発生しました。私はこれを、この表のSparkバージョンをH2Oデータフレームに変換するステップにたどりました。
私がテストに使用している機能は次のとおりです。スパークインスタンスsc
は稼働中とdf
ある標準Rデータフレームとして設定された生データである:
load_h2o <- function(df, rows = nrow(df), cols = ncol(df)) {
df <- df[1:rows, 1:cols]
copy_to(sc, df, "df", overwrite = TRUE)
df_tbl <- tbl(sc, "df")
h2o_tbl <- as_h2o_frame(sc, df_tbl, strict_version_check=FALSE)
return(h2o_tbl)
}
df$label
の頭部が1 1 1 0 0 0
あります。しかし、データセット全体をロードすると、load_h2o(raw_data)
の結果のlabel
列の先頭は0 0 0 0 0 0
です。実際、H2Oデータフレーム内のすべての値は0である。列の数を200(すなわち、load_h2o(raw_data, cols = 200)
)に制限すると、結果として得られるH2Oデータフレームは、期待どおりにすべてのデータを含む。 cols = 201
の場合、すべてゼロに戻ります。
最後に、h2o::h2o.importFile
でディスクから直接データセットをロードすると、完全なデータセットが問題なく処理され、ロジスティック回帰に適合することができます。しかし、私はパッケージ内でオブジェクトを配布するためにRのデータフレームからロードできるようにしたいと思います。
このワークフローの最大列数に制限はありますか?