2つのワーカーノードと1つのマスターノードを持つSparkスタンドアロンクラスタがあります。Sparkスタンドアロンクラスタはローカルファイルシステム内のファイルを読み取ることができません
spark-shellを使って、私はローカルファイルシステム上のファイルからデータを読み込んだ後、いくつかの変換を行い、最終的なRDDを/ home/outputに保存しました(言います) RDDは正常に保存されました。ワーカーノードとマスターノードで_SUCCESSファイルしか存在しませんでした。
この出力データを/ home/outputから読み取る場合、マスター上で0データを取得しているのでデータが取得されていません。次に、他のワーカーノードをチェックしていないと仮定しています。
Sparkがすべてのワーカーノードから読み取っていない理由や、Sparkがワーカーノードからデータを読み取るために使用するメカニズムが何であるかについて、 HADOOP_CONF_DIR.Thisにデフォルトのポイントによって
scala> sc.textFile("/home/output/")
res7: org.apache.spark.rdd.RDD[(String, String)] = /home/output/ MapPartitionsRDD[5] at wholeTextFiles at <console>:25
scala> res7.count
res8: Long = 0
私はそれを試みたが、うまくいかなかった。現状では、マスターには_SUCCESSファイルの出力フォルダーがあり、ワーカーノードには残りのファイルが「出力」フォルダーにあります。 今、私はこの出力フォルダを読んでいるとき、それは私がそれがマスターだけを読んでいると仮定空白を与えています。 –
あなたはあなたが/ home/outputと書いたものを使って、最初のステップを教えてください。 – thinkinbee