Sparkでsc.textfileがどのように使用されているのでしょうか。私の推測では、ドライバは一度にファイルの一部を読み込み、読み込んだテキストをワーカーに配布して処理します。それとも、労働者が運転手の関与なしに、ファイルから直接テキストを読むのですか? refで述べたようにsc.textfileを使用しているときにテキストファイルを読み込むのはドライバかワーカーですか?
答えて
ドライバはファイルメタデータを調べます。ファイルメタデータが存在するかどうかをチェックし、ディレクトリの場合はそのファイルがディレクトリにあるかを確認し、サイズを確認します。その後、ファイル内容の実際の読み取りを行う作業者に作業を送信します。通信は本質的に「あなたがこの長さの間、このオフセットから始めてこのファイルを読んでいる」。
HDFSは大きなファイルをブロックに分割し、スパークは(通常/頻繁に)ブロックごとにタスクを分割するので、そのオフセットにスキップするプロセスは効率的になります。
他のファイルシステムは、必ずしもそうではありませんが、同様に動作する傾向があります。コーデックが分割可能でない場合、圧縮はこのプロセスを混乱させる可能性があります。
textfile
は、RDDを作成します。
テキストファイルRDDSがSparkContextのテキストファイルのメソッドを使用して作成することができます。
このノートもあります:ローカルのファイルシステム上のパスを使用している場合
、ファイルも ワーカーノードで同じパスにアクセスできる必要があります。ファイルを すべてのワーカーにコピーするか、ネットワークマウントの共有ファイルシステムを使用してください。
これは、ファイルを解析してからスレーブに配信するドライバに関するあなたの推測が間違っていることを意味します。
OKこれは、ドライバーの助けを借りずに、ワーカーがファイルを行単位で同期させる方法を質問します。ファイルがローカルではなくHDFSにあるとします。 – pythonic
私はドライバがプロセス中で非アクティブであるとは言いませんでした。 [tag:spark]の内部メカニズムは@pythonicを定義します。 – gsamaras
OK、ドライバはRDDを作成するのに役立ちますが、ファイルが巨大であると仮定しています。たとえば、1テラバイトです。そのような巨大なデータがどのように処理されるのか。それは、RDDがドライバーによってデータ全体のために普及しているというわけではありません。それは部分的に読む必要があります。私はまだ全部が混乱している。 – pythonic
- 1. テキストファイルから読み込むときにApache Ignite Cacheを読み込む方法
- 2. sc.textFile(APACHE SPARK RDD)を使用して読み込み中にカンマをエスケープする
- 3. Node.jsを使用してテキストファイルを読み込みますか?
- 4. ドライバを使用して特定の場所からRAMデータを読み込む?
- 5. テキストファイルをラジオボタンに読み込んでからラジオボタンを選択してテキストファイルを読み込む
- 6. JDBC/Connectorj:ドライバをいつ読み込むのですか?
- 7. テキストファイルから文字を読み込む
- 8. テキストファイルから変数を読み込む
- 9. テキストファイルから配列を読み込む
- 10. テキストファイルから整数を読み込む
- 11. 非テキストファイルをGoogle Dataflowパイプラインに読み込むことはできますか?
- 12. JSのみを使用してテキストファイルに書き込む
- 13. タスクは、コマンドライン引数で 例を与えている シンボルのみをテキストファイルから読み込むプログラムを作成し、他のテキストファイルに書き込む ある
- 14. テキストファイルから読み込むときに数字を無視する方法は?
- 15. Androidで長いテキストファイルを読み込むにはどのようなスレッド方法を使用できますか?
- 16. vbscriptを使ってテキストファイルから20行ごとに読み込む方法は?
- 17. javaを使用してテキストファイルから文字列を読み込む
- 18. (C#ドライバを使用して)MongoDBのLastUpdatedフィールドを自動的に読み込むことができます。
- 19. Cでmallocを使ってテキストファイルを配列に読み込む
- 20. ローカルファイルを読み込むときに使用するNSDataReadingOptionsはどれですか?
- 21. Pythonのテキストファイルからデータを読み込むときにエラーが発生する
- 22. テキストファイルを読み込むと、多項式
- 23. C#読み込み/テキストファイルをListViewに読み込む
- 24. テキストファイルから読み込む配列を使用すると、フォームがフリーズするのはなぜですか?
- 25. curlを使用した後のテキストファイルからの読み込み
- 26. Java - キーボード入力を読み込んでテキストファイルに書き込む
- 27. AppleScriptのリストにテキストファイルを読み込む
- 28. PEPROCESSからドライバでアドレステーブルを読み込む方法は?
- 29. phpオブジェクトをテキストファイルに書き込み、読み込みますか?
- 30. 私のクラスのオブジェクトにテキストファイルを読み込んで、JAVA ADFでVOを読むことはできますか?
それはたくさんの意味があります。情報をありがとう。 – pythonic