私はムービーのレンズデータセットで作業していますが、行とムービーIDの列としてユーザーIDの行列(m×n)を持っており、次元削減技法と行列分解を使ってスパース行列(m×k、k < n)。私はk-最近傍アルゴリズム(ライブラリではなく、自分のコード)を使って性能を評価したいと思います。私はsparkR 1.6.2を使用しています。私は自分のデータセットをsparkRのトレーニングデータとテストデータに分割する方法を知らない。ネイティブR関数(サンプル、サブセット、CARET)を試しましたが、スパークデータフレームと互換性がありません。 sparkRで書かれた私自身の関数を使って、クロスバリデーションと分類子を実行するための提案をしてください。sparkrのクロスバリデーション
0
A
答えて
0
sparklyr(https://spark.rstudio.com/)パッケージはデータを分割するための簡単な機能を提供します。たとえば、df
という名前のデータフレームがSparkにある場合は、compute()
でそのコピーを作成し、次にそれをsdf_partition()
でパーティション化することができます。
df_part <- df %>%
compute("df_part") %>%
sdf_partition(test = 0.2, train = 0.8, seed = 2017)
df_part
その後、スパークDATAFRAMEへ接続だろう。 collect()
を使用してSpark DataFrameをRデータフレームにコピーすることができます。
関連する問題
- 1. Scikitlearn - クロスバリデーション
- 2. CARTモデルのクロスバリデーション
- 3. クロスバリデーションの問題
- 4. ROCとのクロスバリデーション?
- 5. ディープニューラルネットワークのクロスバリデーション
- 6. はsparkR
- 7. がSparkR
- 8. SparkRのRandomForestアルゴリズム?
- 9. WindowsのSparkR
- 10. createDataFrameのSparkRボトルネック?
- 11. YARNクラスタのsparkR
- 12. トレーニング/テストセットとのクロスバリデーション
- 13. SVM回帰のクロスバリデーション
- 14. LeaveOneOut scikitのクロスバリデーションLearn
- 15. ケラスとクロスバリデーション
- 16. SparkR dapply not working
- 17. SparkR vs sparklyr
- 18. dropDuplicates in SparkR
- 19. クロスバリデーションとグリッド検索
- 20. クロスバリデーション+スケルトンの決定木
- 21. SparkRでのファイルの入手
- 22. SparkRでのキャレットの使用?
- 23. sparkR - キャスト・トゥ・デート・フォーマット
- 24. SparkR 1.6.0でJDBCソースに書き込む方法は? SparkR 1.6.0で
- 25. SparkR - spark.confのデフォルトパラメータをオーバーライド
- 26. sparkR - リスト内のサブセット値
- 27. Google DataProcのspark-shellとsparkR
- 28. シンプルなSparkR 1.6の例
- 29. SparkRの測定精度
- 30. Knimeを使用したクロスバリデーション
これはむしろあいまいです。試したコードをサンプルデータで再現可能なサンプルを作成できますか?理想的には、望ましい結果が得られますか? – Konrad