いくつかのディレクトリにjsonのデータファイルがあり、私はPandasにインポートしていくつかのデータ分析をしたいと思っています。 jsonの形式は、ディレクトリ名で定義された型に依存します。例えば、正規化されたjsonデータを複数のファイルからpandasデータフレームにインポートする方法は?
dir1_typeA/
file1
file2
...
dir1_typeB/
file1
file2
...
dir2_typeB/
file1
...
dir2_typeA/
file1
file2
各file
はデータフレームの行になり、複雑なネストされたJSON文字列を含んでいます。私はTypeAとTypeBごとに2つのデータフレームを持っています。後で必要に応じて追加します。
だから、これまで私は、ディレクトリ内のファイルは若干異なるがありあり1つの追加された問題が、あります、私はos.walkに必要なすべてのファイル・パスを持っていると
import os
from glob import glob
PATH = 'dir/filepath'
files = [y for x in os.walk(PATH) for y in glob(os.path.join(x[0], 'file*'))]
for file in files:
with open(issuefile, 'r') as f:
data = f.read()
data_json = json_normalize(json.loads(data))
type = ' '.join(issuefile.split('/')[3]
data_json['type'] = type
# append to data frame for typeA and typeB
if 'typeA' in type:
# append to typeA dataframe
else:
# append to typeB dataframe
を通過しようとしていますフィールド。たとえば、file1
には、file2
にdir1_typeA
というフィールドがいくつか追加されている場合があります。だから、それぞれのタイプのデータフレームにもその動的性質を適応させる必要があります。
これらの2つのデータフレームを作成するにはどうすればよいですか?