spark parquetファイルからh2oフレームを作成してフレームをインポートしようとしています。 ファイルは2GBで約12M行、疎ベクトルには12k colがあります。 それは寄木張りの形式ではそれほど大きくはありませんが、輸入は永遠にかかります。 h2oでは実際には447mbの圧縮サイズとして報告されています。実際にはかなり小さい。h2oスパークリングウォーターセーブフレームからディスクへ
私は間違っています。実際にインポートを完了すると(39分かかる)、次回の高速読み込みのためにフレームをディスクに保存するフォームがh2oにありますか?
私はh2oがとても長い時間を要するシーンの背後にあるいくつかの魔法を理解していますが、11k x 1Mの疎なデータでは遅くて巨大なダウンロードcsvオプションしか見つかりませんでした。
不足しているような気がします。 h2oデータのインポート/エクスポートに関する情報があれば幸いです。 モデルの保存/読み込みはうまくいくが、train/val/testデータの読み込みは不合理に遅い手順に思える。
私は10gのスパークワーカーを10gずつ持っていて、ドライバー8gを与えました。これはたくさんあるはずです。
(:輸出をスピードアップし、複数の部品でH2Oは、しかし、H2Oは現在、唯一のCSVファイルへのエクスポートをサポートしています。これは非常にまばらなデータをご利用の場合の次善であるこの機能は、Java APIを介してアクセス可能で私はSparkでこのアプローチを使用していないので、使用できない理由があれば開発者の一人にチェックしています...) –