mapreduce

    1

    1答えて

    私はmapreduceを使用してレポートを作成しています。ドキュメントにはプロパティがありません。文書の一部には計算を実行しているプロパティがないためです。 次の私のマップ機能である: var map = function(){ emit(this.SurveyId, {count: 1, totalScore: : this.totalScore, networth: this.net

    1

    2答えて

    Hadoop 0.20.2のTeraSortクラスのマッパーにいくつかのコードを挿入する予定です。ただし、ソースコードを確認した後、マッパーが実装されているセグメントを見つけることはできません。 通常、マッパークラスを示すjob.setMapperClass()というメソッドがあります。しかし、TeraSortでは、setInputformat、setOutputFormatのようなものしか見るこ

    0

    2答えて

    pigスクリプト/ map-reduceジョブの実行に関する質問はほとんどありません。 私は豚が、それは本当に仕事を減らす/マップの実行を開始する前、論理的、物理的および実行はを計画して作成することを知っています。私はコマンドを使用して論理的/物理的な計画を見ることができます説明<エイリアス名>;しかし、どのように私は実行計画(私は異なるマップ/計画タスクを計画リスト)を表示するのですか?ブタの執

    3

    1答えて

    私は残念ながら中断していないmapreduceプロセスを開始し、すべてのCPUを噛み砕いています。誰もこれをやめる方法を知っていますか? おかげで、 リチャード

    21

    3答えて

    GoogleのDremelはdescribed hereです。 DremelとMapreduceの違いは何ですか?

    6

    1答えて

    私は各郵便番号にあるレコードの数を数えようとしています。 私のMongoDBでは、郵便番号が埋め込まれています。ドット表記法を使用して、a.res.zに配置されています(aは住所、resはresidential、zはzip)。 (私はPyMongoを使用していますので、pythonで)私はマップ機能をしようとすると db.NY.count({'a.res.z' : '14120'}) :しかし

    0

    1答えて

    ユニグラムのベクトルを生成する必要があります。つまり、特定のテキストフィールドに表示されるすべてのユニークワードのベクトルです。 MongoDBのより広いJSONオブジェクト このベクターを生成する最も簡単で効率的な方法は何ですか。私は(OpenNLPのようなものを使って)トークン化を処理できる単純なJavaアプリケーションを書くことを考えていましたが、もっと良いアプローチはMongoのMap-R

    3

    2答えて

    私は多くのファイル(1000's)で呼び出される必要がある関数を持っています。それぞれは別のものと独立しており、並行して実行できます。各ファイルの関数の出力は、(現在)他のものと結合する必要はありません。 (それぞれ別のファイルを持っている、それが動作 1)それ 2上のMapReduceを実行します)ジョブ1000年代を作成します。私は、私がこれを拡張することができ、サーバの多くを持っているが、私

    1

    1答えて

    marshalライブラリを使用してTCPソケットを介して渡された後に、デシリアライズされたマップ関数とreduce関数を使用してDiscoジョブを実行しようとしています。具体的には、私はすでに、同じシステム上で(ローカルに定義された機能を持つ)無地ディスコジョブをテストしてみた、と彼らは正常に動作 code = marshal.loads(data_from_tcp) func = types.

    0

    1答えて

    現在、私は減速機なしでマッパーを使用しているMapReduceジョブを作成しています。私はキーを書き出す必要はありません。なぜなら、配列に格納された値が必要なだけで、最終的な出力ファイルとして書き出す必要があるからです。これをHadoopでどのように実現できますか?キーと値の両方を出力に書き込むのではなく、値だけを書き出すことに興味があります。値は配列内にあります。ありがとう public voi