1

私はSparkアクセスのために、列単位でファイルを保護する方法を探していました。理想的には、それはHiveのためにApache Rangerが動作するのと同じように動作します。つまり、Sysadminは異なるグループと列のアクセスポリシーを定義します。寄木細工ファイルを列単位で保護する

私はHortoworks HDPを通じてレンジャーを試してきましたが、SparkとParquetのプラグインはまだないようです。

私はまた、Apache Drillを使用して解決策を考案できましたが、主にドリルのコミュニティサポートがまだまだ不十分なため主に受け入れられません。

誰もが同じ要件を満たしている、あるいは解決策の方向性を持っていますか?

答えて

0

多くの研究の後、私はこれが不可能であるという結論に至りました。

レンジャーが他のツール(HDFS、Hive、HBaseなど)で動作する方法は、これらのツールによって提供されるフックを実装するプラグインを使用することです。たとえば、Hiveを保護するカスタムプラグインを作成するには、HiveAuthorizerFactoryを使用してHiveAuthorizerを作成する必要があります。しかし、それは何もファイルフォーマットではないので、寄木張りのためのそのようなフックはありません。

Rangerの列レベルでParquetファイルを保護する可能性のあるソリューションは、RangerのHDFSプラグインの拡張機能を作成することです。この拡張機能は、レンジャーによって定義されたパーケットファイルのアクセスルールを実装します。こうすることで、ファイルがHDFSに保存されている限り、HiveやHBaseの場合と同じように、Parquetファイルをシームレスに保護することができます。

関連する問題