bigdata

1熱

1答えて

私はブタで働くのは初心者です。 register '/usr/lib/pig-0.12.0/contrib/piggybank/java/piggybank.jar' pigdata = load '/xml1.xml' using org.apache.pig.piggybank.storage.XMLLoader('name') as (doc:chararray); values =

1熱

1答えて

時間効率の良いワイドからロングへの変換パンダ

私は、タブ区切りのテキストファイルから読み込み、ワイドフォーマットからロングフォーマットに変換して新しいテキストファイルに書き出すために、約5400万行のデータセットを持っています。データが大きすぎてメモリに収まらないので、イテレータを使用しています。そこで私は長い間に広いから移動したい3つの別々の変数があるので、私はそれらの3つの別々のイテレータすべてusecolsリストが共通の識別子とそうでな

0熱

1答えて

Sqoopジョブのパスワード発行

Sqoopジョブは、常にCLIでパスワードの入力を要求します。これを避けるため、プロパティsqoop.metastore.client.record.passwordをtrueに設定する必要があります。しかし、どこでもsqqop_site.xmlでこの値を変更する必要があると言われています。とにかく私はこの値を1つの仕事だけに設定できますか？私は以下のようなジョブを作成しようとしたとsqoopはそ

0熱

1答えて

大規模な固定フォーマットデータは大きなデータと見なすことができますか？

仮想シナリオでは、世界中に何百ものマシンがあります。これらはすべてハウスキーピングデータ、ログ、レコードを24時間365日に生成します。このデータの1つの可能な使用方法は、さまざまな種類のレポートを生成することです。生成されたこのデータのすべては、固定の形式を持ち、対応するリレーショナルスキーマを使用して非常によく定義できます。これは、膨大なデータのために大きなデータと見なされますか？こ

0熱

1答えて

hortonworksのエラー

hortonworks (ambari 2.2, HDP 2.4)でmahoutを実行しようとしていますが、エラー「Error: JAVA_HOME is not set」が表示されます。この問題と設定を管理してください。

0熱

1答えて

カスケードワードカウントJavaタスクがnullPointExceptionをスローする

私はカスケーディングを学習しています。私はチュートリアル（https://github.com/Cascading/tutorials.git）からgradleプロジェクトを持っています。私はこの例外を得たhadoop jar ./build/libs/cascading-mr.jar /wc_input /wc_output ： import java.io.IOException; impo

1熱

1答えて

Titanグラフデータベースの使用と拡大

私は、階層データ（親子関係）を保存するためのオプションを考え出しています。ツリーはグラフであり、フォレスト（ツリーの）も技術的にグラフであるため、グラフデータベースはRDBMS espよりはるかに優れているようです。私は読み取りと書き込みの両方の操作を最適化することに懸念があるからです。書き込みの最適化は、階層の変更が最小限の書き込みを必要とすることを意味します。読み取りを最適化することは、

1熱

1答えて

Bigtable/HBase：豊富な列ファミリーと単一のJSONオブジェクト

Google Cloud Bigtable（少数のPetaBytes）にかなりの量のデータを格納してサービスします。プライマリキーを使用してデータにアクセスする予定です。キープレフィックスクエリによってデータにアクセスすることもあります。データの更新は予定されていません。既存のテーブルにのみ追加します。私の質問をフィルタリング/クエリ/ソートするために私のカラムを使用していないので（Bigta

-1熱

1答えて

Windows 10マシンで.vmdkを使用してcloudera VMを実行することはできません

私はビッグデータ空間で初心者です。私はClouderaからcloudera-quickstart-vm-5.7.0-0-virtualboxをダウンロードし、リモートスペースを設定する必要があるOracle仮想ボックスを手に入れました。しかし、私はVMを使用して.vmdkファイルを実行することができません。 .ovfファイルを使用して取得できます。私はここで何が問題なのか分かりません。マシン（ネッ