mapreduce

    3

    2答えて

    私はAmazonの弾性マップを使っています。 私は「foo」で式の中のすべての数字を選び出すために豚の式を書くことができますどのようにこの random text foo="1" more random text foo="2" more text notamatch="5" noise foo="1" blah blah blah foo="1" blah blah foo=

    0

    1答えて

    map/reduceのマップフェーズの作業を分けて、マッピングが実行されているとします。現在、各作業単位には約1分かかります。処理を停止する必要があるとしましょう。どのように地図/州の状態を維持して、バックアップを開始するときに最小限の時間を無駄にするでしょうか?

    1

    2答えて

    テキストファイルを別のテキストファイルに変換する必要がある場合、どのようにマッパー/レデューサーを設計しますか? 私は小さな変換をしたシンプルなマップ/削減プログラムを書きましたが、要件は以下もう少し凝っているが詳細は以下のとおりです。 ファイルは通常、次のように構成されている - 最初の行は、カンマが含まれています列名の区切りリスト。残りの行は列に対して値を指定します 一部の行では、後続列の値が

    1

    1答えて

    CPU集約型処理(現在では単一CPUに限定)を実行する32ビットCOMオブジェクトがあります。非常に大きなデータセットとユーザーコミュニティのためにスケールアップするために、私はQizMtのようなMapReduceのようなフレームワークによる分散処理を採用することを考えています。 私の質問は、QizMtはCOMで動作しますか? 他の選択肢はありますか? COM内のロジックはかなり複雑です。分散処理

    8

    3答えて

    HBaseで複数の行を削除する効率的な方法はありますか、HBaseには適していないようなユースケースの匂いはありますか? 「chart」という表があります。この表には、チャートにある項目が含まれています。行キーは、次の形式である: chart|date_reversed|ranked_attribute_value_reversed|content_id 時々私は、与えられた日付のチャートを再生成

    7

    4答えて

    私は2つのmapreduceジョブがあるシナリオです。私は、Pythonをより快適に使い、mapreduceスクリプトを書くためにそれを使用し、同じもののためにハープ・ストリーミングを使用することを計画しています。ハープ・ストリーミングが使用されているときにフォームに従った両方のジョブを連鎖させるのに便利ですか? マップMap1 - > Reduce1 - >マップ2 - > Reduce2 私は

    5

    2答えて

    Hadoop StreamingでMap-ReduceジョブをPythonスクリプトで実行しようとしていて、同じエラーがHadoop Streaming Job failed error in pythonとなっていましたが、 私が実行したときに私のスクリプトが正常に動作 "猫SAMPLE.TXT |ソート| | ./p1mapper.pyを./p1reducer.py" しかし、私は次のコマンド

    1

    1答えて

    MapReduceのMapおよびReduceでリレーション名を使用する方法はありますか?私はHadoopのMapReduceを使ってSetの違いをしようとしています。 入力: 2つのファイルRおよびSには用語のリストが含まれています。 (Amは用語を示すためにトンを使用する予定) 目的: R見つけるには - Sを、RはなくSで アプローチではすなわち用語: マッパー:トンを吐き出します - > R

    4

    2答えて

    Wikipediaの記事は、擬似コードを提供し、その少し混乱し、私はいくつかの適切なコードを見てみたいけれども、私は一般シーケンシャルパターンアルゴリズム(GSP)http://en.wikipedia.org/wiki/GSP_Algorithm の実装例を探しています(理想的にはPythonまたはJava)。誰も良いリファレンスを知っていますか? 私はアルゴリズムを最初に理解してから、MapR

    2

    2答えて

    マップ/リダクションが使用しているデータノードがダウンするとどうなりますか?ジョブを別のデータノードにリダイレクトする必要はありませんか?私のコードはこの例外条件をどのように処理すべきですか?