をspark_read_parquet ...mclapplyと私はフォーラムへのアクティブなユーザーとしては比較的新しいですが、私は何年以来の答えを探してきたので、あなたにすべての最初のあなたの貢献に感謝してい
今日、私は質問誰もそれを持っています...
テストシステムの一部として、s3(AWS)からspark(ローカルコンピュータ)にファイルを並行して読み込もうとしています。 1つのコアは、それが失敗した多くのことを設定したとき、私は... mclapply使用しますが、している
例:(2を使用した場合と同じコードが一つのコアを使用した場合に動作しますが、失敗した)
new_rdd_global < - mclapply (配列(file_paths)、関数(I){spark_read_parquet(SC、名前= paste0( "RDD _"、I)、パス= file_paths [I])}、mc.cores = 1)
new_rdd_global < - mclapply(警告メッセージ: mclapply(seq()に、seq(ファイルパス)、関数(i){関数名、パス名= paste0( "rdd_"、i)、パス=ファイルパス[i])}、mc.cores = file_paths)、f慰め(I){:ユーザーコード
任意の提案で すべてのスケジュールのコアに発生したエラー???
ありがとうございます。
質問を明確にしてください。あなたが求めていることはまったくわかりません。また、達成しようとしていることについて簡単な説明を追加することもできます。 –
私はさまざまなdirsに格納されているたくさんの寄木細工ファイルを持つs3aバケットからの読みを並列化しようとしています。この場合、 "file_paths"はフルネームパスのリストを持つ変数であり、それ以上のことはありません。概念的には単純ですが、ファイルを並列で読み込めるかどうかはわかりません。 –