私はGoogleストレージとZeppelinでScalaで作業しています。次のクエリを使用してすべてのjsonファイルを読み込むことができます。Spark DataFrame Zeppelinフォルダを読み取る
sqlContext.read.json("gs://myBucket/*/jsonfile.json")
私のデータは、各チャンクがmyBucket
にそれ自身のフォルダを持って小さな塊にして構成されています。チャンクフォルダで、私はすべての私のフォルダのパスを取得したいと異なった処理よりもそのチャンク
- jsonfile.json
- otherData.data
- moreJsons.json
に関連するファイルを得ましたプロセス/タスク... だから私はそのようないくつかのことを行うことができるよう:この中
if(isJson){
sqlContext.read.json("gs://myBucket/chunkId/jsonfile.json")
}
を私はchankのパスを知っています:chunkId
そして、私は `isJsonの内部ロジックをいくつか持っています。
これは私が必要とするものです(私はそれがどれほど明確であることを願っています...)。そして私の質問はです。ファイルの内容を読まずにフォルダのリストを取得するにはどうすればいいですか?