namenode

1熱

1答えて

私はNamenodeを理解しようとしており、オンライン資料を参照して、書籍Hadoopを参照しています。ネームノードには "edit logs"、 "fsimage"のような概念があり、ネームノードには次のファイルがあります。 ==============================================それはfsimageは、ブロックの位置を格納していないことを述べたその本で==

1熱

1答えて

HDFSで使用される用語の明確性？

私はHDFSに慣れ親しんでいる間にいくつかの用語を見つけました。用語の数は、namespace,metadata,transaction logs,fsimage,editlogsのようになります。これらの用語はすべて「同じ情報を持っている」という同じことを記述しているように見えることがありますが、これについては明確ではありません。一般にmetadataはデータに関するデータを意味するので、m

0熱

1答えて

NameNode起動エラー：いいえスキームのFileSystem：ht

私はHDP 2.6です。私は名前ノードを起動しようとすると、私は怒鳴るエラーが出る： java.io.IOException: No FileSystem for scheme: http at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2786) at org.apache.had

0熱

2答えて

HBaseハイ・アベイラビリティ・ネーム・ノードの高可用性

HBaseをインストールしたAmbariを使用して2ノード・クラスタをセットアップしました。私は3ノードなしでNamenode HAを達成できないことを知っています。しかし、スタンバイHBaseマスターを追加するだけで、2つのノードでHBaseをハイにすることができます。 Hbaseの高可用性はNamenodeの高可用性に依存しますか？

2熱

1答えて

ジョブトラッカーを再起動する前に、namenodeをセーフモードにする必要がありますか？

ClouderaのCDH3、Apache Hadoopの0.20.2相当のHadoopクラスタがあります。私は殺されていない仕事があるので、ジョブトラッカーを再開したい。私はコマンドラインからコマンドを実行しようとしましたが、コマンドは正常に実行されましたが、ジョブはまだJob Cleanup: Pendingステータスです。とにかく私はrestartjob-trackerにして、そのクリーンアッ

0熱

1答えて

同じ入力/出力ディレクトリのサイズが違う（同じデータの場合）

NameNodeによって割り当てられたブロック数を減らすため。小さなファイルを連結して128MBのファイルにしようとしています。これらの小さなファイルはgz形式であり、128MBファイルもgz形式でなければなりません。これを達成するために、すべての小さなファイルの合計サイズを取得し、この合計サイズ（MB）を128で割り、必要なファイル数を取得します。それからrdd.repartition(nb

0熱

1答えて

Hadoopのデータノード間のデータのバランスをとるにはどうすればいいですか？

私は、2つのマシン（各マシンに1つの名前ノードと2つのデータノード）からなるHadoopにマルチノードクラスタを持っています。私が使用しています： hadoop fs -put dir1 hdfspath を上記のコマンドで：データは、両方のマシンにのみ一台のマシンに分散されますか？バランスをとる方法：ハープ・バランサー・ツールを使用するのはどうですか？それとも自動的な方法がありますか？

0熱

1答えて

YARNが実行されているときに送信されたhadoopジョブがAccepted状態になった

WindowsラップトップでUbuntu 14 VMを実行するためにVirualBoxを使用しています。私は単一ノードのApache配布HDFSとYARNを設定しました。私がdfsとYARNを実行すると、必要なすべての悪魔が実行されています。 YARNを設定してDFSを実行しないと、MapReduceジョブを正常に実行できませんが、YARNを実行してジョブがACCEPTED状態でスタックすると、ノ

0熱

1答えて

スパーク/ YARN - すべてのノードがスパーク送信に使用されていません

AWSに3つのスレーブが設定されたSpark/YARNクラスタがあります。私はこのような仕事をspark-submitします。~/spark-2.1.1-bin-hadoop2.7/bin/spark-submit --master yarn --deploy-mode cluster my.py最終結果は、クラスタ内のすべてのスレーブからのすべてのホスト名を含むファイルです。出力ファイルにホス