ハイブを使用する以外にも、SQLプログラマのためにHDFS上の大規模なログデータに対して特別なクエリを実行するのは良い考えですか?MySQLストレージエンジンとしてHadoopを使用しますか?
同様のオープンソースの実装はありますか?
ハイブを使用する以外にも、SQLプログラマのためにHDFS上の大規模なログデータに対して特別なクエリを実行するのは良い考えですか?MySQLストレージエンジンとしてHadoopを使用しますか?
同様のオープンソースの実装はありますか?
技術的に実装するのは技術的に複雑ではありません。 NoSQLエンジンのパフォーマンス上の動作は、MySQLエンジンがストレージエンジンに期待するものとは根本的に異なります。具体的には、それらは良好なランダムアクセスを有し、完全スキャンまたはレンジスキャンでは効率的ではない。問題は、これらのコストをすべてオプティマイザに変換できることです。これは、あらゆるRDBMSエンジンに適用可能なものです。実際には、それらの多くはプラグイン可能なストレージエンジンの概念を持ち、柔軟性/文書化のレベルが異なります。
私はこのような統合を効率的にするために、完全/範囲スキャンのためにNoSQLエンジンに述語をプッシュダウンする必要があると考えています。私は100%MySQLがストレージエンジンインターフェイスのレベルでそれをサポートしているとは確信していません。
このアプローチでは、MySQLには並列クエリがなく、大きなデータを処理するにはあまり適していないという重大な問題があります。
2014年に質問を検索したところ、Infinidbとa blogが見つかりました。これは、hadoopとmysqlを統合します。これは、格納されたデータにネイティブのmysqlプロトコルアクセスを提供します。
私はこれについて多くのことを読んでいませんが、互換性(既存のmysqlアプリケーションとの互換性)とパフォーマンス(よく調整されたインデックスとデータパーティション化と比較して)に疑問があります。
しかし、数多くのディスクに収まらない非常に大きなデータセットでは、高可用性のための最も簡単なソリューションかもしれません。 (HDFSビルドインレプリケーションを使用すると、SANまたはRAIDは不要です)
現在、InfinidbのWebサイトはHeartbleedバグの影響を受けています。私は彼らの製品がまだ5ヶ月以上聞き取り尽くされているように安全かどうか疑問に思います。
InfiniDB(別名Calpont)は、あなたの投稿の日付に失業しました。 MariaDB(以前のSkySQL)がサポート(および理論的な将来の開発)を提供しています。 –