bigdata

1熱

1答えて

flumeを使ってFacebookページからデータを読み込む方法は誰でも知っていますか？実際には特定のFacebookページを読み込み、投稿/フィードなどのすべての情報を抽出してデータをHadoopデータベースにプッシュするようなFlumeエージェントが必要です。

1熱

1答えて

Pythonで疎な行列を徐々に作成するには？

私は共起する行列を作成しています。これは、1Mから1Mの整数値のサイズです。行列が作成された後、私が実行する唯一の操作は、各行（または列は対称行列であるため）ごとに上位N個の値を取得することです。私はそれをメモリに収めるには、疎な（sparse）マトリックスを作成する必要があります。大きなファイルから入力データを読み込み、2つのインデックス（行、列）のインクリメンタルな更新を更新します。 Sp

6熱

1答えて

UNIXソートに必要なディスク容量

現在、500GBのテキストファイルのUNIXソート（WindowsマシンのGitBash経由）を行っています。メインディスク上の空き領域がなくなるため、-Tオプションを使用して一時ファイルを、ファイル全体を格納するのに十分な領域があるディスクに転送しています。事は、私はディスクスペースを見ていて、明らかに一時ファイルは元のファイルのものをすでに超えています。どれくらい先に行くのか分かりませんが、一

2熱

1答えて

Scala - この種類のRDDタイプを返す方法

RDDを返すメソッドを作成しようとするとthisを参照しますが、return needパラメータが原因で失敗しました。 API（Java）によれば、私のコードは次のとおりです。 def HBaseToRDD(_HBaseConfiguration:HBaseConfiguration, _sc:SparkContext) : RDD[(K, V)] = { val HBaseRDD = _sc

0熱

1答えて

{Key、Value}のRDDペアの値にキーを追加する方法と、それをrddに変換する方法は？

私は2つのFILE1内のファイル、FILE2データセット・ディレクトリで過ごしていたとします。私は値を持つRDD取得しようとしています上記のコードでは val file = sc.wholeTextFiles("file:///root/data/dataset").map((x,y) => y + "," + x) ： - RDDに単一の値として>値、キーを仮定するファイル名がFILE1あると

2熱

1答えて

フィールド値を検証する有効な方法Spark

データをhdfsに保存する前に、データフレーム内の特定の列を検証する必要があります。私は、pyspark 1.5.2 /パイソン例えば2.7 でこれを行うには、エレガントかつ効果的な方法があるかどうかを知りたい、私はすべてのことを確認する +-----+---+ | a| b| +-----+---+ |"foo"|123| +-----+---+ 私は次のようなデータを持っていると言

0熱

2答えて

R - データテーブルの条件付き数式表現

私は、農業作物生産のFAOデータベースを国ごとに取り組んでいます。私は2つの異なる中で、このデータテーブルを要約する必要が d <- data.table(structure(list(Year = c(1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973, 1974, 1975, 1976, 1

-2熱

1答えて

なぜhadoopでいくつかのノードを使用する必要がありますか？

私は大きなデータとhadoopを初めて使っています。いくつかの学習コースを持って、この絵を見た：これは、単一のマシンを使用すると、進捗ドロドロ速く[最初の1]を作ると言う我々はいくつかのノードが関与する必要があり、なぜ私は理解できないのですか？ =）

0熱

2答えて

empタイミングのMin、Maxを計算するためのPigスクリプト

私はPigとHadoopの世界で初めてです。私が持っている問題はシンプルかもしれませんが、私は進めることができません。私は基本的に1日のデータでスワイプする以下のデータを持っています。 PIGを使用して、ある日の従業員が過ごした合計時間、つまり最初の時間内（オフィスに着く時間）と最後の外出時間（最後の1日のスワイプ）の差を計算する必要があります。 EmpID In_Time Out_Time

0熱

1答えて

スパークジョブとハイブスクリプトの自動化

スパークジョブとハイブSQLスクリプトを順番に実行したい。シェルスクリプトを使ってやっています。これを達成するために推奨される他の方法/ベストプラクティスはありますか？私はウェブ上で検索しましたが、このシナリオに合っていますか？