2017-07-10 5 views
2

データレイクアプローチ(5 hereをスライドに記載)である:U-SQLスキーマ検出

  1. 取り込みすべてのデータ - かかわらず、要件
  2. ストアのすべてのデータ - ネイティブ・フォーマットでスキーマ定義
  3. 無しHadoopのようなエンジンを使用して分析する

しかし、データ湖には多くのデータセットがロードされていますが、自動化されスケーラブルな方法でスキーマ発見を行うにはどうすればよいですかr? U-SQLは動的スキーマの検出をサポートしていますか、またはADLAや他のツールセットを使用してスキーマ探索を行う良い方法はありますか?

答えて

1

これは良い質問ですが、答えはいくらかあなたが発見したいスキーマに依存します。

私に説明してみましょう:

あなたはCSV型のデータを持っている場合は、提供されたデータからスキーマを検出しようとVisualStudioのためのADLツールの最新バージョンを含むツールは、あります(ツールが実際に生成されます。あなたのためのEXTRACTステートメント)。

一部の対話型言語では、クエリの一部としてスキーマを推測しようとする抽出プログラムを提供する場合があります。現時点でU-SQLではこれをサポートしていません。バッチ・ジョブでスキーマを間違って推測したくない場合や、ジョブを実行するために多額の資金を費やした後に失敗する場合があるからです。インタラクティブな設定では、コストが低く、クエリ作成者が簡単に修正/上書きすることができます。

イメージやテキストドキュメントなどのデータがあり、JSONやXMLなどのネスト化された半構造化ドキュメントの場合でも、しばしば必要なスキーマを提供する必要があります。たとえば、JPEGファイルをお持ちの場合は、EXIFプロパティを使用しますか?もしそうなら、またはいくつかの特徴抽出?またはいくつかの色の分析?

データ湖を設計する際に重要なことの1つは、ネイティブフォーマットのデータをフォルダ構造に意味的にまとめることです。ビュー/ TVFを使用して、それらをより簡単に発見できるようにするメタデータサービス、またはAzureデータカタログのようなサービスを使用してデータを記述することができます。

湖のストレージ内にすでにデータがあり、それを発見したい場合は、今すぐ、U-SQLとSDK、またはストアのWebHDFS APIに対抗するいくつかのツールを使用して、 。