bigdata

    1

    1答えて

    flumeを使ってFacebookページからデータを読み込む方法は誰でも知っていますか? 実際には特定のFacebookページを読み込み、投稿/フィードなどのすべての情報を抽出してデータをHadoopデータベースにプッシュするようなFlumeエージェントが必要です。

    1

    1答えて

    私は共起する行列を作成しています。これは、1Mから1Mの整数値のサイズです。 行列が作成された後、私が実行する唯一の操作は、各行(または列は対称行列であるため)ごとに上位N個の値を取得することです。 私はそれをメモリに収めるには、疎な(sparse)マトリックスを作成する必要があります。大きなファイルから入力データを読み込み、2つのインデックス(行、列)のインクリメンタルな更新を更新します。 Sp

    6

    1答えて

    現在、500GBのテキストファイルのUNIXソート(WindowsマシンのGitBash経由)を行っています。メインディスク上の空き領域がなくなるため、-Tオプションを使用して一時ファイルを、ファイル全体を格納するのに十分な領域があるディスクに転送しています。事は、私はディスクスペースを見ていて、明らかに一時ファイルは元のファイルのものをすでに超えています。どれくらい先に行くのか分かりませんが、一

    2

    1答えて

    RDDを返すメソッドを作成しようとするとthisを参照しますが、return needパラメータが原因で失敗しました。 API(Java)によれば、私のコードは次のとおりです。 def HBaseToRDD(_HBaseConfiguration:HBaseConfiguration, _sc:SparkContext) : RDD[(K, V)] = { val HBaseRDD = _sc

    0

    1答えて

    私は2つのFILE1内のファイル、FILE2データセット・ディレクトリで過ごしていたとします。私は値を持つRDD取得しようとしています上記のコードでは val file = sc.wholeTextFiles("file:///root/data/dataset").map((x,y) => y + "," + x) : - RDDに単一の値として>値、キーを 仮定するファイル名がFILE1あると

    2

    1答えて

    データをhdfsに保存する前に、データフレーム内の特定の列を検証する必要があります。私は、pyspark 1.5.2 /パイソン例えば2.7 でこれを行うには、エレガントかつ効果的な方法があるかどうかを知りたい、私はすべてのことを確認する +-----+---+ | a| b| +-----+---+ |"foo"|123| +-----+---+ 私は次のようなデータを持っていると言

    0

    2答えて

    私は、農業作物生産のFAOデータベースを国ごとに取り組んでいます。私は2つの異なる中で、このデータテーブルを要約する必要が d <- data.table(structure(list(Year = c(1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973, 1974, 1975, 1976, 1

    -2

    1答えて

    私は大きなデータとhadoopを初めて使っています。いくつかの学習コースを持って、この絵を見た: これは、単一のマシンを使用すると、進捗ドロドロ速く[最初の1]を作ると言う 我々はいくつかのノードが関与する必要があり、なぜ私は理解できないのですか? =)

    0

    2答えて

    私はPigとHadoopの世界で初めてです。私が持っている問題はシンプルかもしれませんが、私は進めることができません。 私は基本的に1日のデータでスワイプする以下のデータを持っています。 PIGを使用して、ある日の従業員が過ごした合計時間、つまり最初の時間内(オフィスに着く時間)と最後の外出時間(最後の1日のスワイプ)の差を計算する必要があります。 EmpID In_Time Out_Time

    0

    1答えて

    スパークジョブとハイブSQLスクリプトを順番に実行したい。シェルスクリプトを使ってやっています。これを達成するために推奨される他の方法/ベストプラクティスはありますか?私はウェブ上で検索しましたが、このシナリオに合っていますか?