0
私はsparkデータフレームで読みたいHDFSに大きなインデックス付きlzoファイルを持っています。このファイルには、jsonドキュメントの行が含まれています。Spark DataFramesのjson行のLZOファイルを読む
posts_dir='/data/2016/01'
posts_dir
には、以下のがあります。
/data/2016/01/posts.lzo
/data/2016/01/posts.lzo.index
以下の作品が、インデックスを利用していないので、それが唯一のマッパーを使用しているので、長い時間がかかります。
posts = spark.read.json(posts_dir)
インデックスを活用する方法はありますか?