sparkとscalaの新機能です。 jsonファイルを含むディレクトリを読みたい。このファイルには、20種類の異なる値を持つことができる "EVENT_NAME"という属性があります。属性値に応じて、イベントを区切る必要があります。 EVENT_NAME = event_Aイベントをまとめて表示します。以下のようなハイブ外部テーブル構造でこれらを書く:/アプリケーション/ハイブ/倉庫/ DB/event_A/DT =日付/時間=時間スパークデータフレームをパーティションに書き込む
ここ私が行くべき各イベントに関連するすべてのイベント・タイプとデータ用に20種類のテーブルを持っていますそれぞれのテーブルに。 私はいくつかのコードを書いていますが、正しくデータを書き込むためには助けが必要です。
{
import org.apache.spark.sql._
import sqlContext._
val path = "/source/data/path"
val trafficRep = sc.textFile(path)
val trafficRepDf = sqlContext.read.json(trafficRep)
trafficRepDf.registerTempTable("trafficRepDf")
trafficRepDf.write.partitionBy("EVENT_NAME").save("/apps/hive/warehouse/db/sample")
}
最後の行が分割された出力を作成しますが、私はそれを必要とする正確にどのようにではありません。それを行うには、どうすれば正しいか、他のコードを入手することをお勧めします。
データがそれに日付と時刻の情報を持っていません。私はそれを外部に提供する必要があります。 – Anup