私はSparkを初めて使用しており、結果セットに4億行に近いSpark SQLを実行しようとしています。私はJupyterノートブックからSpark SQLを実行しています。 Azure HDInsightでSparkを使用しています。限り、私は実行すると4098メガバイト Jupyterノートブックを使用してSpark SQLを使用して4億行を引き出す
- - エグゼキュータの3
- 番号:スパーククラスタの構成は次のとおり私に行の最初のカップルを与えるためにクエリ、すべて正常に動作します。しかし、すべての行、つまり4億行を引き出そうとすると、「Executorがリクエストを殺しました」というエラーがスローされます。
私が知りたいことは、Spark SQLまたはJupyterノートブックからこの量のデータを取り出すことができることです。
本当にこのボリュームをプルすることができれば、私は間違って何をしていますか?
現在のところ、正確なエラーメッセージは表示されません。この記事を間もなくエラーメッセージとともに更新します。
誰でもこれを手伝うことができれば、大きな助けになるでしょう。
ありがとうございます!
4GBエグゼキュータで5億行を処理したいと思っています。それは野心的です。あなたは実際に1000万を処理するために幸運になります。 –