hadoop

    2

    1答えて

    hadoop 、cassandraなどの非リレーショナルデータベースのアプリケーションの設計についてもっと学ぶための優れたリソースやサンプルアプリケーションがありますか(C#で行うことをお勧めしますが、 、など? 私は、特定の非リレーショナルDB製品について学習するのではなく、そのようなアプリケーションの設計/理論を学ぶことにもっと興味があります。 これまでのところ、私の開発経験はリレーショナルデ

    8

    1答えて

    複数のディレクトリに存在する圧縮gz形式のファイルを複数(100MB以上2〜3MB)持つ状況があります。例 A1/B1/C1 /パート0000.gz A2/B2/C2 /パート0000.gz A1/B1/C1 /パート0001.gz ため私はすべて供給しなければなりませんこれらのファイルを1つのマップジョブにまとめます。私が見るところでは、MultipleFileInputFormatを使うために

    8

    3答えて

    HBaseで複数の行を削除する効率的な方法はありますか、HBaseには適していないようなユースケースの匂いはありますか? 「chart」という表があります。この表には、チャートにある項目が含まれています。行キーは、次の形式である: chart|date_reversed|ranked_attribute_value_reversed|content_id 時々私は、与えられた日付のチャートを再生成

    1

    1答えて

    私たちはイントラネットサイトをクロールするためにnutchを使用しています。 インデックス作成フェーズ(indexer.javaのコードを変更しました)でxmlファイルのメタデータを抽出しています。ローカルモードで実行すると、必要なメタデータが与えられました。 ここで、nutchをクラスタモードで使用することを考えました(hadoopを使用).nutchをクラスタでクロールすると、私たちが使用した

    7

    4答えて

    私は2つのmapreduceジョブがあるシナリオです。私は、Pythonをより快適に使い、mapreduceスクリプトを書くためにそれを使用し、同じもののためにハープ・ストリーミングを使用することを計画しています。ハープ・ストリーミングが使用されているときにフォームに従った両方のジョブを連鎖させるのに便利ですか? マップMap1 - > Reduce1 - >マップ2 - > Reduce2 私は

    0

    1答えて

    私はZend Frameworkで大きなアプリケーションを開発しています。 私はZend Cluster Serverはあると知っていますが、多くの企業がApache Hadoopを使用しています。違いはなんですか? Zend開発者にとってはどちらが良い選択ですか?

    0

    2答えて

    私はちょっとしたアーケードアドバイスが必要です。 JPAベースのORMをMySQLリレーショナルデータベースにバックアップして、JavaベースのWebアプリケーションを作成しました。今、アプリケーションの一環として、数千のデータベースレコードを互いに比較するバッチジョブがあります。このジョブは時間がかかりすぎて並列化する必要があります。私はこれを行うためにmapreduceとhadoopを使用して

    11

    5答えて

    Pigの結果をmysqlのようなデータベースに直接エクスポートする方法はありますか?

    1

    2答えて

    私が知っているHadoopは、半構造化されたデータ処理の一般的な選択肢ではありません。タブで区切られた単純なデータとunixツール(cut、grep、sed、...)と手書きpythonスクリプト。しかし時々私は本当に大量のデータを取得し、処理時間は20〜30分にもなります。私はデータセットを動的に実験し、セミアドホッククエリなどを実行したいので、私には受け入れられません。 このように、Hadoo

    0

    4答えて

    Hadoopの上に構築されたVerticaに似たカラムストアがありますか?HBaseについてはスパース行列ストアであり、Verticaのようなもので達成できる圧縮レベルを得ることはできません。 おかげ