bigdata

0熱

1答えて

私は、ハープ・クラスター上で糸を使用してApache Sparkアプリケーションを実行しています。プログラムが終了したら、そのプログラムのCPU使用率のプロファイルを確認する方法がありますか？基本的には、1秒または2秒の間隔でプロファイリングログが必要です。

0熱

1答えて

スパーク（糸を使って）を使ってすべてのノードを使う方法を教えてください。

Sparkのタスクの実行は、Yarnスケジューラを使用するとメモリ中心のようです。タスクのメモリが少ないノードに収まることがわかると、使用可能なすべてのノードを使用してそれらのタスクを実行する必要はありません。エグゼクティブ/コンテナのメモリを増やすことによってそれを欺くことなく、すべてのノードを使用するようヤーンに頼むことができる方法はありますか？

0熱

1答えて

マックスウェルのxidは、マッサージキューに書かれています

私は、以下のjsonで、私たちはカフカに書かれたすべてのjasonsでxidを見ることができます。である私が知りたい {"database":"TEST","table":"MAXWELL","type":"insert","ts":1234811111,"**xid**":2009527,"commit":true,"data":{"id":2,"name":"test"}} 、は、私はあ

2熱

2答えて

1M + XMLドキュメントの保存と索引付けのベストプラクティスは？

私は数年間のXML文書のアーカイブを持っています。 1M以上のユニークな文書科目があり、各科目は任意の年度に1つ以上の文書を持つことができます。各ドキュメントには数百のノードとパラメータが含まれています。合計XMLキャッシュのサイズは約50GBです。これらのドキュメントを保存して索引付けするシステムを構築する必要があります。これにより、さまざまなパラメータの検索フィルタリングが可能になります。

0熱

1答えて

Hadoopアーカイブツールの出力を圧縮

私はHadoopクラスタのファイル数を減らすためにHadoop Archiveを使用していますが、データの保持にはできるだけ長くデータを保存したいと考えています。それから、問題はHadoop Archiveがフォルダサイズを小さくしないことです（私のフォルダには、小さなファイルと大きいファイルの両方のタイプがあり、シーケンスファイルを使用するのには適していません）。私は-D mapreduce.

0熱

1答えて

zoomdataをcentosにインストールするには？

zoomdataをcentosにインストールする方法私はzoomdata docsでステップごとに試しましたが、zoomdataがインストールされているが、ユーザーインターフェイスのダッシュボードを取得できませんでした。

1熱

1答えて

ソーシャルネットワーク分析を収集するためのビッグデータDBの提案

ソーシャルネットワークのデータを毎時収集し、特定のシェア/ポストで何が起こっているかをサンプリングするシステムを構築したいと考えています。クロールをやり終えたら、後で分析できる大きなデーターベースに保存します。解析プロセスは、潜在的にスパークまたはアプリケーションコード分析である可能性があります。これは、私に可能な最良のDBを探していることを意味します。 1.クエリ。 2. Sparkと他の

0熱

2答えて

キーに格納された値が

と一致した場合にスパークで2 RDDSをマージするためにどのように私は2 RDDs考えてみましょう： rdd1 = [ (key1, value1), (key2, value2), (key3, value3) ] rdd2 = [ (key4, value4), (key5, value5), (key6, value6) ] を私はRDDSをマージしたい場合にのみRDD1 =にキー1

1熱

1答えて

Cronjobを使用してシェルスクリプトの実行を確認する方法

現在、特定の間隔の後にシェルスクリプトをスケジュールするためにcronジョブを実行していますが、シェルスクリプトの実行とログを見ることができません。おかげ