hadoop-streaming

    1

    1答えて

    こんにちはすべて私はマルチノードハープインストールをインストールしようとしています。すべてうまく動作しますが、糸のための私のnodemanagerは動作していません。私は糸のノードマネージャのログファイルを見たとき、私はその実際のメモリと仮想コアを示すない理由は分からない情報 "org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterI

    1

    1答えて

    HadoopでJsonファイルを処理するためにPythonコードを使用してMapperを書き込む方法。 Iコードの下にしようとした:シェルコマンドcat user_info.json | python mapper.pyを使用して、上記のコードの実行に関する import json import sys data = json.loads(sys.stdin) 、それが表示されているエラー

    0

    1答えて

    以下のhadoop-streaming.jarコマンドを使用してHDFSの場所に* _0(HDFSの一部のファイル)ファイルをマージしようとしています。 hadoop jar $HDPHOME/hadoop-streaming.jar -Dmapred.reduce.tasks=1 -input $INDIR -output $OUTTMP/${OUTFILE} -mapper cat -redu

    0

    1答えて

    私は以下の機能を備えたアプリケーションを構築するための解決策を探しています: いくつかの小さなものに関連している可能性があり、テーブル内の行の-potentially-何百万ものデータベースの化合物。など 高速単一のクエリ、「テーブル* FROMをSELECT WHERE%値LIKEフィールド」これは、Linuxサーバー上で実行されます :シングルノードが、将来的にはおそらく複数のノード。 Pyt

    0

    1答えて

    私はHadoop/MapReduceを使用してムービーの推奨事項を作成しています。 私は、MapReduceプロセスを実装するためにpythonのみを使用しています。 私は基本的に、マッパーとレデューサーを別々に実行し、マッパーからレデューサーへのコンソール出力を使用しています。 私が問題になっているのは、Pythonが端末の文字列として値を出力するということです。数字を使って作業している場合、数

    1

    2答えて

    私のscenerioは 私のプロジェクトでは、毎分kafkaから200のメッセージが得られ、avroフォーマットを使用してハイブテーブルに格納する必要があります。 私は、scriptfまたは各メッセージを挿入すると、私は各メッセージの挿入に時間がかかると考えています。 このストリーミングデータは、ハイパーに挿入して良い演奏をするために使用しなければならない方法はありますか? あなたのお手伝いをお待

    1

    1答えて

    私は、HDFSからデータを読み出すためにスパークストリーミングを使用したいと考えています。アイデアは、別のプログラムが、私のスパークストリーミングジョブが処理するHDFSディレクトリに新しいファイルをアップロードし続けるということです。しかし、私はまた、終了条件が欲しいです。すなわち、HDFSにファイルをアップロードするプログラムが、スパークストリーミングプログラムに信号を送ることができ、すべての

    2

    2答えて

    私は単純なMapReduceの例をPythonで書いています。入力がファイルの場合、たとえばtextファイルの場合、コードを実行するために単純に次のパターンを使用します。cat <data> | map | sort | reduceたとえば、私の場合はcat data | ./mapper.py | sort | ./reducer.pyであり、すべて正常に機能します。 しかし、ファイルを含むd

    0

    1答えて

    Apache Hadoopで、与えられた入力ファイルの素数の平均合計を数えるmapreduceプログラムを実行しようとしています。 これは私のマッパー import sys for word in sys.stdin: print(word) であると私は、次のコマンドでそれを実行すると、これは、今リデューサー import sys primes = [] for word i

    0

    1答えて

    私は助けが必要です。私は、Pythonコードを使用してWebページからファイルをダウンロードし、ローカルファイルシステムに配置してから、putコマンドを使用してHDFSに転送してから操作を実行します。 しかし、ファイルサイズが非常に大きく、ローカルファイルシステムへのダウンロードが適切な手順でない場合があります。ですから、ファイルをローカルファイルシステムを使用せずにHDFSに直接ダウンロードした