私はビッグデータを掘り下げようとしており、私が出会った用語のほんの一部はstructured
とunstructured data
です。私はそれがstructured
であり、非構造化データであることを意味することを理解した。ビッグデータのコンテキスト内のビデオが非構造化データなのはなぜですか?
動画や写真がunstructured data
に該当する理由を理解するのが難しいです。
誰でも分かりますか?
私はビッグデータを掘り下げようとしており、私が出会った用語のほんの一部はstructured
とunstructured data
です。私はそれがstructured
であり、非構造化データであることを意味することを理解した。ビッグデータのコンテキスト内のビデオが非構造化データなのはなぜですか?
動画や写真がunstructured data
に該当する理由を理解するのが難しいです。
誰でも分かりますか?
'構造化された'データの大部分の定義は、高度な構成のデータを指します。通常は、定義済みのデータスキーマです。スキーマは、一般的に特定の順序でのフィールドの数で構成され、多くの古典的なDBのテーブルのようなデータのそれぞれを含有する1種のみ、この場合
userId,username,age,location,joinedOn
12,"Polly",20,"Washington DC","2016-02-23 13:34:01"
14,"Dan",19,"San Diego CA","2016-11-10 18:32:21"
15,"Shania",36,"","2017-01-04 10:46:39"
、あなたは、2つの文字列フィールド、2つの整数フィールドを有します日付/時刻型のフィールドがあります。ビッグデータのコンテキストでは、これは便利なデータのクエリ/処理、大幅に改善された圧縮、効率的なストレージを可能にします。これらのすべてが、特にデータ量が大きくなるにつれて、困難な問題になる可能性があります。
単純なビットマップ、ベクトル、プログレッシブJPEG、可変圧縮を組み込んだフォーマット、フラクタル、アニメーションフレームのコンテナなどさまざまな方法で表現できるイメージを考えてみましょう。カラーパレット、メタデータなどがあり、これらのバリエーションはすべて、異なるプロパティを持つ2つのイメージを1つのデータスキーマとして扱うことができないということを意味します(つまり、列指向のストレージ、圧縮、クエリの利点がありません)。
ビデオに関しては、複数の異なるビデオ(およびオーディオ)コーデックと圧縮を内部に含むことができるコンテナ形式があり、さらに複雑さを増していることを除いて、上記の内容はすべて当てはまります。