bigdata

    0

    1答えて

    私は、ハープ・クラスター上で糸を使用してApache Sparkアプリケーションを実行しています。プログラムが終了したら、そのプログラムのCPU使用率のプロファイルを確認する方法がありますか?基本的には、1秒または2秒の間隔でプロファイリングログが必要です。

    0

    1答えて

    Sparkのタスクの実行は、Yarnスケジューラを使用するとメモリ中心のようです。タスクのメモリが少ないノードに収まることがわかると、使用可能なすべてのノードを使用してそれらのタスクを実行する必要はありません。エグゼクティブ/コンテナのメモリを増やすことによってそれを欺くことなく、すべてのノードを使用するようヤーンに頼むことができる方法はありますか?

    0

    1答えて

    私は、以下のjsonで、私たちはカフカに書かれたすべてのjasonsでxidを見ることができます。である私が知りたい {"database":"TEST","table":"MAXWELL","type":"insert","ts":1234811111,"**xid**":2009527,"commit":true,"data":{"id":2,"name":"test"}} 、 は、私はあ

    2

    2答えて

    私は数年間のXML文書のアーカイブを持っています。 1M以上のユニークな文書科目があり、各科目は任意の年度に1つ以上の文書を持つことができます。各ドキュメントには数百のノードとパラメータが含まれています。合計XMLキャッシュのサイズは約50GBです。 これらのドキュメントを保存して索引付けするシステムを構築する必要があります。これにより、さまざまなパラメータの検索フィルタリングが可能になります。

    0

    1答えて

    私はHadoopクラスタのファイル数を減らすためにHadoop Archiveを使用していますが、データの保持にはできるだけ長くデータを保存したいと考えています。それから、問題はHadoop Archiveがフォルダサイズを小さくしないことです(私のフォルダには、小さなファイルと大きいファイルの両方のタイプがあり、シーケンスファイルを使用するのには適していません)。 私は-D mapreduce.

    0

    1答えて

    zoomdataをcentosにインストールする方法 私はzoomdata docsでステップごとに試しましたが、zoomdataがインストールされているが、ユーザーインターフェイスのダッシュボードを取得できませんでした。

    1

    1答えて

    ソーシャルネットワークのデータを毎時収集し、特定のシェア/ポストで何が起こっているかをサンプリングするシステムを構築したいと考えています。 クロールをやり終えたら、後で分析できる大きなデーターベースに保存します。 解析プロセスは、潜在的にスパークまたはアプリケーションコード分析である可能性があります。 これは、私に可能な最良のDBを探していることを意味します。 1.クエリ。 2. Sparkと他の

    0

    2答えて

    と一致した場合にスパークで2 RDDSをマージするためにどのように私は2 RDDs考えてみましょう: rdd1 = [ (key1, value1), (key2, value2), (key3, value3) ] rdd2 = [ (key4, value4), (key5, value5), (key6, value6) ] を私はRDDSをマージしたい場合にのみRDD1 =にキー1

    1

    1答えて

    現在、特定の間隔の後にシェルスクリプトをスケジュールするためにcronジョブを実行していますが、シェルスクリプトの実行とログを見ることができません。 おかげ