私はスパークについてもっと自分自身を教育したいと思っていました。だからこの質問をしたかった。コンピュータのさまざまなコアで作成されたスパークRDDを見つける方法
私はSparkを現在ローカルマシンにインストールしています。 16GBのMachです。
私はPysparkで動作するJupyterノートブックを接続しました。私はそのノートブック内の任意のコードを実行するとき
はだから今、データを読み取り、スパークデータフレームにデータを変換するように、私はチェックしたい:
1)。すべてのデータセットがローカルマシンに配布される場所。同様に、CPUコアの異なるコアを使用してデータセットを配布しますか?それを見つける方法はありますか?
2)。 Jupiterのノートブックをスパークなしで使ってコードと計算を実行することは、JupiterのノートブックをPysparkで実行することと異なりますか?最初のものと同じように、マシンの1つのコアを使用し、1つのスレッドを使用して実行しますが、Pysparkを搭載したJupyterノートブックはマルチスレッド/処理を使用してCPUの異なるコアでコードとコンピューティングを実行しますか?このことは正しいのでしょうか?
これを確認する方法はありますか?
おかげ
で利用できる理解するだろうを持っていますPyspark、私はSpark Kernelを使用しているので、ローカルのMacでコードを実行しても、Pythonのノートブックとは異なり、分散コンピューティングを使用していますか? 第2に、Sparkカーネルを使用していても、Spark RDDまたはSpark DataFramesを使用しない限り、分散コンピューティングは正しく行われません。私もSparkでPandas DataFrameを使うことができます。しかし、Spark DataFrameに変換されるまで、データセットを異なるエグゼキュータに配布することはありません。あれは正しいですか? – Baktaawar
分散コンピューティングでは、複数のコアを使用するように設定すると、--master local [*]はすべてのコアを使用します。 第2の質問 - スパークを学ぼうとしてください、あなたがスパークの基礎に欠けているようです。 –