誰でもSPARKがhdfsデータを読み込んでメインメモリでどのように管理するのか理解してもらえますか?言い換えればSPARKはどのようにデータを読み込み、メモリで管理するのですか
、
私はHadoopのファイルから3 RDD、最初RDDを作成し、その上にいくつかの変換を行う第二RDDを作成し、再び第二RDDに何らかの変換を行うと、呼び出し、その後第三RDDを作成した場合3番目のRDDでのいくつかのアクション。
- hdfsから何回データを読み込むのですか?
- 3つのRDDデータは、キャッシュを呼び出さないか、明示的に保持しないと、メモリに残りますか?すなわち、第3RDDでアクションが実行されているときに、第1RDDデータがメモリに残っているかどうかを判断する。
RDDは遅延です。変換操作はHDFSデータを読み取らない –
しかし、私は3番目のRDDでいくつかのアクションを実行しているので、アクションデータを実行した後はHDFSから正しく読み込まれますか? – Rahul
はい、ただし、3つのRDDがすべて同じファイルで動作している場合は1回だけです –