mrjob

    0

    1答えて

    私はAmazon EMRでmrjobを使用しています。それはEMR 4.8.3に欠陥がなくても動作しますが、EMR 5.x(いずれも)を実行すると、ハープストリームAPIの中に何かが入り込み、多くのエラーが発生します。私のmrjobプログラムは、ワードカウントを行う非常にシンプルなプログラムです: #!/usr/bin/python2.7 from mrjob.job import MRJob

    1

    2答えて

    このpython3プログラムは、map/reduceを使用してテキストファイルから単語の頻度リストを生成しようとします。私は、最大のカウント値が最後に現れるように、第2レデューサーの利回り明細書で「カウント」として表される、ワード数をどのように並べるかを知りたいと思います。現在、結果の尾は次のようになります。コンテキストの場合 "0002" "wouldn" "0002" "wrap" "00

    1

    1答えて

    MRJobを使用してMapReduceに基づいてプログラムを書きます。私は減速機のパラメータについて質問があります。ご存じのように、リデューサ関数はキーと値の2つのパラメータを取ります。可能な場合は、ループ条件を記述しないで値の長さを探したい。コードは以下の通りです。 Error is in reducer_IGPLInit function. Error is "TypeError: objec

    1

    1答えて

    に.CSVの最初の行をスキップ、 trip_id taxi_id pickup_time dropoff_time ... total 0 20117 2455.0 2013-05-05 09:45:00 50.44 1 44691 1779.0 2013-06-24 11:30:00 66.78 と私のコードは、 import pandas as pd import numpy

    0

    1答えて

    Exception in thread "main" java.lang.RuntimeException: class org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedPartitioner not org.apache.hadoop.mapred.Partitioner at org.apache.hadoop.conf.Con

    1

    1答えて

    u.dataファイルのデータセットでJupyter NotebookからMapReduceを実行しようとしていますが、「TypeError: 'str'オブジェクトがアイテムの削除をサポートしていません」というエラーメッセージが表示され続けます。 コードを正常に実行するにはどうすればよいですか? u.dataは、次のような情報が含まれています。 from mrjob.job import MRJo

    0

    1答えて

    MRJobの仕組みがわかりません。私は、SQLクエリを作成し、その行を生成しようとしている、とドキュメントでは、そのようなことは詳細に説明されていません。 これまでの私のコード: # To be able to give db file as option. def configure_options(self): super(MyClassName, self).configure_

    0

    1答えて

    私はMapReduceの新版です。私は非常に簡単な質問があります。私はWordCountの問題を解決し、問題をテキストの上位Nレコードとして変更したいと考えています。私はテキスト上のすべての単語を並べ替えるが、私は最後のN値を取ることはできません。まず、テキストを読んで、各単語をレデューサーに1で送信し、レデューサーはそれぞれの単語ごとに番号を探します。それから私は単語の出現に従ってこれらの単語を