2016-07-21 8 views
0

DRUIDを使用してローカルのTSVファイルからデータを取り込んでいるときに、TSVファイルがどのように見えるのか不思議です。これは単なるテストのためであることに注意してくださいTSVファイルをDRUIDでどのようにフォーマットする必要がありますか?

クイックスタート/ sample_data.tsvファイル:

名姓電子メールの時間ボブ・ジョーンズBOBJを

それはちょうどようにする必要があります@ gmail.com 1468839687ビリー・ジョーンズ[email protected] 1468839769

この部分は私の寸法です:名姓メールが
そして、この部分は私の実際のデータです:ボブ・ジョーンズ[email protected] 1468839687ビリー・ジョーンズ[email protected] 1468839769

{ 
     "type" : "index_hadoop", 
    "spec" : { 
     "ioConfig" : { 
         "type" : "hadoop", 
      "inputSpec" : { 
       "type" : "static", 
       "paths" : "quickstart/sample_data.tsv" 
      } 
     }, 
     "dataSchema" : { 
      "dataSource" : "local", 
      "granularitySpec" : { 
       "type" : "uniform", 
         "segmentGranularity" : "hour", 
         "queryGranularity" : "none", 
         "intervals" : ["2016-07-18/2016-07-18"] 
      }, 
      "parser" : { 
       "type" : "string", 
       "parseSpec" : { 
        "format" : "tsv", 
        "dimensionsSpec" : { 
         "dimensions" : [ 
          "name", 
          "lastname", 
          "email" 
         ] 
        }, 
        "timestampSpec" : { 
           "format" : "auto", 
         "column" : "time" 
        } 
       } 
      }, 
      "metricsSpec" : [ 
       { 
        "name" : "count", 
        "type" : "count" 
       }, 
       { 
        "name" : "added", 
        "type" : "longSum", 
        "fieldName" : "deleted" 
       } 
      ] 
     } 
    } 
} 

私はいくつかを持っていました私の仕様ファイルについての質問も、私は彼らの答えを文書上で見つけることができませんでした。誰かが私のためにそれらに答えることができるなら、私はそれを感謝します:)!

1)例のスペックでは、「タイプ」という行が追加されていることがわかりました。一番上に「index_hadoop」という行が追加されています。クイックスタートディレクトリのローカルコンピュータからTSVファイルを取得している場合は、そのタイプにどのような設定をしますか?また、私はこの "type"キーをドキュメントに入れなければならないさまざまな値についてはどこで読むことができますか?私はそれについて説明しなかった。

2)この場合も、ioConfig:type:: "hadoop"にタイプ変数があります。クイックスタートディレクトリのローカルコンピュータからTSVファイルを取得している場合は、そのタイプにどのような設定をしますか?

3) timestampSpecの場合、TSVファイルの時刻はGMTです。これをフォーマットとして使用する方法はありますか?私はあなたがそれをUTCに変換するべきであると読んでいるので、データをオーバーロードに掲示する過程でUTCに変換する方法がありますか?または、これらのGMT時刻形式をUTCに変更する必要がありますか?「時間」:「2015-09-12T00:46:58.771Z」。

答えて

0

ドルイドは、あなたが参照している仕様は、Hadoopのインデックスタスクので、「タイプ」である

が "バッチデータに

  • Hadoopのインデックスタスク
  • インデックスタスク
  • を摂取する二つの方法をサポートしていますindex_hadoop "であり、ioconfigのタイプは" hadoop "です。ここで

    は、ローカルファイルから読み込むことができるインデックスタスクのサンプルスペックです: { "type": "index", "spec": { "dataSchema": { "dataSource": "wikipedia", "parser": { "type": "string", "parseSpec": { "format": "json", "timestampSpec": { "column": "timestamp", "format": "auto" }, "dimensionsSpec": { "dimensions": ["page", "language"] } } }, "metricsSpec": [{ "type": "count", "name": "count" }, { "type": "doubleSum", "name": "added", "fieldName": "added" }], "granularitySpec": { "type": "uniform", "segmentGranularity": "DAY", "queryGranularity": "NONE", "intervals": ["2013-08-31/2013-09-01"] } }, "ioConfig": { "type": "index", "firehose": { "type": "local", "baseDir": "examples/indexing/", "filter": "wikipedia_data.json" } } } }

関連する問題