mrjob

0熱

1答えて

mrjobはAmazon EMR 5.xでは動作しませんが、EMR4.8.3で動作します

私はAmazon EMRでmrjobを使用しています。それはEMR 4.8.3に欠陥がなくても動作しますが、EMR 5.x（いずれも）を実行すると、ハープストリームAPIの中に何かが入り込み、多くのエラーが発生します。私のmrjobプログラムは、ワードカウントを行う非常にシンプルなプログラムです： #!/usr/bin/python2.7 from mrjob.job import MRJob

1熱

2答えて

カウントの2段階順序付けのマップ/縮小

このpython3プログラムは、map/reduceを使用してテキストファイルから単語の頻度リストを生成しようとします。私は、最大のカウント値が最後に現れるように、第2レデューサーの利回り明細書で「カウント」として表される、ワード数をどのように並べるかを知りたいと思います。現在、結果の尾は次のようになります。コンテキストの場合 "0002" "wouldn" "0002" "wrap" "00

1熱

1答えて

MRJob-還元剤の値の長さを見つける

MRJobを使用してMapReduceに基づいてプログラムを書きます。私は減速機のパラメータについて質問があります。ご存じのように、リデューサ関数はキーと値の2つのパラメータを取ります。可能な場合は、ループ条件を記述しないで値の長さを探したい。コードは以下の通りです。 Error is in reducer_IGPLInit function. Error is "TypeError: objec

1熱

1答えて

PythonのMapReduceの - 私はPythonでのMapReduceを実行しようとしていて、私のcsvファイルは、以下のように見えるマッパー

に.CSVの最初の行をスキップ、 trip_id taxi_id pickup_time dropoff_time ... total 0 20117 2455.0 2013-05-05 09:45:00 50.44 1 44691 1779.0 2013-06-24 11:30:00 66.78 と私のコードは、 import pandas as pd import numpy

0熱

1答えて

Javaエラー：歴史をフェッチすることはできませんではないorg.apache.hadoop.mapred.Partitioner

Exception in thread "main" java.lang.RuntimeException: class org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedPartitioner not org.apache.hadoop.mapred.Partitioner at org.apache.hadoop.conf.Con

1熱

1答えて

JupyterノートブックからMapReduceを実行

u.dataファイルのデータセットでJupyter NotebookからMapReduceを実行しようとしていますが、「TypeError： 'str'オブジェクトがアイテムの削除をサポートしていません」というエラーメッセージが表示され続けます。コードを正常に実行するにはどうすればよいですか？ u.dataは、次のような情報が含まれています。 from mrjob.job import MRJo

0熱

1答えて

MRJobでSQLクエリから行を処理する方法

MRJobの仕組みがわかりません。私は、SQLクエリを作成し、その行を生成しようとしている、とドキュメントでは、そのようなことは詳細に説明されていません。これまでの私のコード： # To be able to give db file as option. def configure_options(self): super(MyClassName, self).configure_

0熱

1答えて

トップNレコードMapReduce on Python

私はMapReduceの新版です。私は非常に簡単な質問があります。私はWordCountの問題を解決し、問題をテキストの上位Nレコードとして変更したいと考えています。私はテキスト上のすべての単語を並べ替えるが、私は最後のN値を取ることはできません。まず、テキストを読んで、各単語をレデューサーに1で送信し、レデューサーはそれぞれの単語ごとに番号を探します。それから私は単語の出現に従ってこれらの単語を