orc

    1

    2答えて

    私はsparkとscalaを使い始めましたが、次の問題を解決する必要があります。 ハッシュマップから特定の条件に対してチェックする必要がある行を含む1つのORCファイルがあります。 val tgzFilesRDD = sc.textFile("...") val fileNameTimestampRDD = tgzFilesRDD.map(itr => { (itr, getTimes

    0

    1答えて

    .csvファイルをHiveテーブルにORCファイルとしてロードします。 CREATE TABLE IF NOT EXISTS CrimesData(ID int, Case_Number int, CrimeDate string, Block string , IUCR string,Primary_Type string, Description string, Location_Descri

    0

    1答えて

    追加のメタデータをORCファイルに書き込む方法はありますか?私は "KeyValueMetadata"を使って寄木細工でそれを行う方法を見つけました。私はUserMetadataItemクラスを見ましたが、Orcがカスタムメタデータを追加する方法を提供しているかどうかはわかりません。私はJavaを使って方法を見つけたい。

    -1

    1答えて

    私はMicrosoftのComputer Vision APIサービスを使用して手書きを検出し、それを機械可読テキストに変換しようとしています。しかし、自分のAPIキーを提供した後、自分のウェブサイトでこのサービスをテストすると、結果を返さずに202 Acceptedヘッダーだけが返されます。 paramere手書きをfalseに切り替えると、ヘッダ200が返されますが、結果は判読できません。 h

    0

    1答えて

    はコードを考えてみましょう: val df1 = spark.table("t1").filter(col("c1")=== lit(127)) val df2 = spark.sql("select x,y,z from ORCtable") val df3 = df1.join(df2.toDF(df2.columns.map(_ + "_R"): _*), trim(upper

    0

    1答えて

    私はすべてのorcファイルが圧縮されたorcファイルとしてBLOBストレージのAzureに配置されているという独自の状況があります。これらのファイルをプレミアムSQL DBにロードする必要があります。私は理解しているデータをダウンロードするためにポリベースを使うことができますが、それは非常に長い時間がかかります。私は、ポリベースがそれらのファイルを解凍し、マップ削減ジョブを実行し、ネットワークを介

    2

    1答えて

    S3バケットの上で動作するAWS上にEMRクラスター(スポットインスタンスを含む)をホストします。データはこのバケットにORC形式で格納されます。しかし、同じデータを読んで、何らかの種類のサンドボックス環境と同様にRを使用したいと考えています。 パッケージaws.s3(cloudyr)が正常に動作しています。私は問題なくcsvファイルを読むことができますが、orcファイルを読み取り可能なものに変換

    0

    1答えて

    アテナは素敵です。 これを使用するには、私たちの規模をより安く、より効果的にする必要があります。これは、データをORCまたはパーケット形式で保存することを意味します。 オーロラデータベース全体をS3に移行し、それらの形式に変換する最も簡単な方法は何ですか? DMSとデータパイプラインがありますマイナス変換ステップは...

    0

    2答えて

    ハイブを使用する場合、parquet/ORCファイルフォーマットが必要な場合は、テキストをデフォルトのフォーマットとして追加する必要があります。 parquet/ORCをデフォルト出力形式に設定するにはどうすればよいですか?