hdfs

    1

    1答えて

    私は、3つのVMを持つ非常に単純なHadoopクラスタを設定しました.1つはNameNodeとして動作し、他の2つはデータノードです。フォーマットコマンドでHDFSファイルシステムを作成したところ、すべて正常に動作しています。ファイルをHDFSシステムに保存できます。 もう1つのデータノードを追加します。私の前提は、新しいノードをセットアップしてスレーブファイルに追加し、HDFSを再起動すると、新

    0

    1答えて

    質問はテアトルの例に関連しています。テラソートを使用して出力レコードの量を変更するパラメータはありますか? teragenで生成される入力は65'536'000ですが、テラソートを実行して10'000'000レコードを出力するように要求されています。この要求はClouderaディストリビューションの実践の一部であり、実際のケースではなく実装の実践に関するベンチマークです。 Teragen: 時間の

    1

    2答えて

    OracleからHiveにデータを移動する必要があり、Sqoopが役に立つツールであることがわかりました。 問題は、クエリを処理し、結果をデスティネーションデータベースのテーブルに挿入する必要があることです。 Oracle関数の結果 - > HiveDB.myTable 私は、このコマンドが見つかりました: sqoop import --connect jdbc:oracle:thin:@****

    0

    1答えて

    私はpysparkの新しいです。 pysparkから驚くべきことは、HDFS倍の日付を修正するいくつかの機能があるのですか?このようなHDFSのよう :pysparkで : def get_user_folder_update_date(): magic() return update_time print get_user_folder_update_date() 20

    2

    1答えて

    リモートのローカルPythonスクリプトからファイルを作成/書き込み/更新する最も良い方法は何ですか? ファイルとディレクトリをリストすることはできますが、書き込みは問題があるようです。 私はhdfsとsnakebiteを検索しましたが、どれもこれを行うためのきれいな方法を教えていません。

    2

    1答えて

    kafkaトピックのデータを読み込んでHBaseテーブルに書き込むために、ストリームセットを使用してパイプラインを構築しています。 I HDFSファイルに書き込むことが可能ですが、私はHBaseの先を使用しようとすると、私は次のエラーを取得する: 私はサービスを管理するためにClouderaのを使っていて、私は次のように構成されましたHBaseの先のプロパティ: Zookeeper quorum

    0

    1答えて

    私が読んで:あなたは内のノードよりも少ない数が少なすぎるタスクを(持っている場合のMapReduceで 地図タスクは、通常その 、一度に一つのブロックを操作しますクラスタ)、あなたのジョブはそうでない場合よりも遅く実行されます この文は、HDFSブロックサイズについての段落にありますが、その意味を理解していません。 私を助けることができますか?

    0

    1答えて

    OpenSuse Tumbleweed 20170703でHadoop 2.8.2で単一の擬似分散ノード(localhost)をセットアップしました。Javaバージョンは1.8.0_151です。一般的に、それは正しく設定されているようです。私はエラーなしなどとnamenodeの書式を設定でき 私がしようとしたときしかし、現在の作業ディレクトリからhadoop fs -ls、ファイル/ディレクトリが

    0

    2答えて

    私はScalaとSparkを使用しており、XMLファイルを単一の文字列として読み込みたいと考えています。 これを行うには、すっきりとしたScala-ishの方法を見つけるのに苦労しています。 私が最初に考えたのは val fileContents: RDD[String] = sparkContext.textfile(pathToFile) val combinedContents: Stri