2017-03-03 5 views
0

私はビッグデータを掘り下げようとしており、私が出会った用語のほんの一部はstructuredunstructured dataです。私はそれがstructuredであり、非構造化データであることを意味することを理解した。ビッグデータのコンテキスト内のビデオが非構造化データなのはなぜですか?

動画や写真がunstructured dataに該当する理由を理解するのが難しいです。

誰でも分かりますか?

答えて

2

'構造化された'データの大部分の定義は、高度な構成のデータを指します。通常は、定義済みのデータスキーマです。スキーマは、一般的に特定の順序でのフィールドの数で構成され、多くの古典的なDBのテーブルのようなデータのそれぞれを含有する1種のみ、この場合

userId,username,age,location,joinedOn 
12,"Polly",20,"Washington DC","2016-02-23 13:34:01" 
14,"Dan",19,"San Diego CA","2016-11-10 18:32:21" 
15,"Shania",36,"","2017-01-04 10:46:39" 

、あなたは、2つの文字列フィールド、2つの整数フィールドを有します日付/時刻型のフィールドがあります。ビッグデータのコンテキストでは、これは便利なデータのクエリ/処理、大幅に改善された圧縮、効率的なストレージを可能にします。これらのすべてが、特にデータ量が大きくなるにつれて、困難な問題になる可能性があります。

単純なビットマップ、ベクトル、プログレッシブJPEG、可変圧縮を組み込んだフォーマット、フラクタル、アニメーションフレームのコンテナなどさまざまな方法で表現できるイメージを考えてみましょう。カラーパレット、メタデータなどがあり、これらのバリエーションはすべて、異なるプロパティを持つ2つのイメージを1つのデータスキーマとして扱うことができないということを意味します(つまり、列指向のストレージ、圧縮、クエリの利点がありません)。

ビデオに関しては、複数の異なるビデオ(およびオーディオ)コーデックと圧縮を内部に含むことができるコンテナ形式があり、さらに複雑さを増していることを除いて、上記の内容はすべて当てはまります。

関連する問題