私はPythonには新しく、dictファイルから特定の情報を抽出しています。複雑なJSONファイルから情報を抽出する最も効率的な方法は何ですか?
テキストデータを格納する数百万のJSONファイルがあります。すべてのJSONファイルは同様の構造を持っています。構造的には多くのバリエーションがあります。各JSONファイルについて、特定のキーからすべてのテキスト文字列を抽出し、それらをdictとして格納する必要があります。
json1
およびjson2
は、以下の簡単な例です。私が行ってきたことは、JSONファイルからサンプルを取り出し、解析し、可能なバリエーションをすべて含むようにif文をたくさん書くことです。しかし、私はそれが非効率的であると思って、まだすべてのシナリオを含めることができません。キー"text"
を使用して値を検索し抽出する一般的な方法があるのだろうかと思います。
json1 = {
"section": {
"heading":{"lvl":"A1", "text":"today"},
"paragraph":[
{"color":"green", "text":"yesterday"},
{"color":"purple", "text":"tomorrow"}
]
}
}
json2 = {
"paragraph":{"text":"everyday", "color": "black"}
}
つまり、「テキスト」のキーを含むすべてのテキスト文字列を含むdictを取得したいとします。 json1
については、{"json1":"today yesterday tomorrow"}
を取得したいと考えています。 json2
については、{"json2":"everyday"}
を取得したいと考えています。
ご協力いただきまして誠にありがとうございます。
あなたは結果として 'set'または' dict'をしたいですか?あなたは 'set'を見せました。 –
@ juanpa.arrivillaga結果として「dict」が欲しいです。私は私の説明を修正しました。混乱させて申し訳ありません。 –
これで、jsonオブジェクトの名前をキー(奇妙なもの)とし、文字列をコンマで連結した文字列で構成した 'dict'を手に入れました。これは、特にキーと値のペアが1つの辞書なので、特に便利です。 –