2016-10-21 4 views
-3

更新入れ子になったjson/dictをタプル形式に変換する際の問題?

以下を考慮してくださいdictlemaoriginal_formtag、そして現在の場合はidの4タプルを抽出するにはどうすればよいですか?これまでのところ、これは私が試したことです:

def gettuples(data, level = 0): 
    if isinstance(data, dict): 
     if 'semtheme_list' in data: 
      print(data['semtheme_list'][0]) 
      yield data['semtheme_list'][0] 

     elif 'analysis_list' in data: 
      print(data['analysis_list'][0]) 
      yield data['analysis_list'][0] 

     for val in data.values(): 
      yield from gettuples(val) 

    elif isinstance(data, list): 
     for val in data: 
      yield from gettuples(val) 

を上記の関数で、私は(*)、以下を得る:

私は、探しています4タプルと非常によく似ています
{'lemma': '*', 'tag': 'Z-----------', 'original_form': "Robert Downey Jr has topped Forbes magazine's annual list John Deere"} 
{'lemma': 'Robert Downey Jr', 'tag': 'GNUS3S--', 'original_form': 'Robert Downey Jr'} 
{'sense_id_list': [{'sense_id': '__12123288058840445720'}], 'lemma': 'Robert Downey Jr', 'tag': 'NPUU-N-', 'original_form': 'Robert Downey Jr'} 
{'lemma': 'top', 'tag': 'VI-S3PPA-N-N9', 'original_form': 'has topped'} 
{'lemma': 'John Deere', 'tag': 'GN-S3D--', 'original_form': "Forbes magazine's annual list John Deere"} 
{'lemma': 'magazine', 'tag': 'GN-S3---', 'original_form': 'Forbes magazine'} 
{'sense_id_list': [{'sense_id': 'db0f9829ff'}], 'lemma': 'Forbes', 'tag': 'NP-S-N-', 'original_form': 'Forbes'} 
{'type': 'Top>SocialSciences>Economy', 'id': 'ODTHEME_ECONOMY'} 

(* *):

[[['Z-----------', "Robert Downey Jr has topped Forbes magazine's annual list John Deere", '*'], ['GNUS3S--', 'Robert Downey Jr', 'Robert Downey Jr'], ['NPUU-N-', 'Robert Downey Jr', 'Robert Downey Jr'], ['VI-S3PPA-N-N9', 'has topped', 'top'], ['GN-S3D--', "Forbes magazine's annual list John Deere", 'John Deere'], ['GN-S3---', 'Forbes magazine', 'magazine'], ['NP-S-N-', 'Forbes', 'Forbes'], ['NC-S-N5', 'magazine', 'magazine'], ['WN-', "'s", "'s"], ['GN-S3---', 'annual list John Deere', 'John Deere'], ['GN-S3---', 'annual list', 'list'], ['AP-N5', 'annual', 'annual'], ['NC-S-N5', 'list', 'list'], ['GN-S3Y--', 'John Deere', 'John Deere'], ['NP-S-N-', 'John Deere', 'John Deere']]] 

しかしidentity_listと:

entity_list: [{ form: "John Deere", official_form: "Deere & Company", id: "d5250a54a8", sementity: { class: "instance", fiction: "nonfiction", id: "ODENTITY_INDUSTRIAL_COMPANY", type: "Top>Organization>Company>IndustrialCompany" 
} 

私は印刷するときに、:

result = [['lema:',obj['lemma'], 'original_form', obj['original_form'], 'tag:',obj['tag']] for obj in gettuples(json_data)] 

print(result) 

そして、私はこのエラーを取得しています:だから

File "/Users/user/PycharmProjects/Tests/test.py", line 51, in pos_tag2 
    result = [['lema:',obj['lemma'], 'original_form', obj['original_form'], 'tag:',obj['tag']] for obj in gettuples(json_data)] 
    File "/Users/user/PycharmProjects/Tests/test.py", line 51, in <listcomp> 
    result = [['lema:',obj['lemma'], 'original_form', obj['original_form'], 'tag:',obj['tag']] for obj in gettuples(json_data)] 
KeyError: 'lemma' 

を、私の質問は以下のとおりです。どのように私は(**)のような4タプル形式を取得することができ、 (*)?またはlemaoriginal_formtagに準拠した4タプルを抽出するために、そして現在の場合にのみ、そのid?またアップデート2

、私はjson_normalizeとした試みた別の事:

で:

from pandas.io.json import json_normalize 
df = json_normalize(request, ['token_list',['token_list']]) 
df = pd.DataFrame(df) 
df 

アウト:次に

affected_by_negation analysis_list endp form id inip quote_level  separation style token_list type 
0 no [{'lemma': '*', 'tag': 'Z-----------', 'origin... 4 Deere 6 0 0 _ {'isTitle': 'no', 'isItalics': 'no', 'isUnderl... [{'form': 'Deere', 'analysis_list': [{'lemma':... phrase 

アウト
df_clean = df.drop(df.columns[[0, 2,4, 5, 6, 7, 8, 10]], axis=1) 
df_clean 
list(df_clean.itertuples(index=False)) 

[Pandas(analysis_list=[{'lemma': '*', 'tag': 'Z-----------', 'original_form': 'Deere'}], form='Deere', token_list=[{'form': 'Deere', 'analysis_list': [{'lemma': 'Edere', 'tag': 'GN-S3---', 'original_form': 'Deere'}, {'lemma': 'deer', 'tag': 'GN-S3---', 'original_form': 'Deere'}, {'lemma': 'Edere', 'tag': 'GN-P3---', 'original_form': 'Deere'}, {'lemma': 'deer', 'tag': 'GN-P3---', 'original_form': 'Deere'}, {'lemma': 'Edere', 'tag': 'GNFU3---', 'original_form': 'Deere'}], 'head': '1', 'separation': '_', 'affected_by_negation': 'no', 'endp': '4', 'type': 'phrase', 'style': {'isTitle': 'no', 'isItalics': 'no', 'isUnderlined': 'no', 'isBold': 'no'}, 'id': '5', 'inip': '0', 'token_list': [{'form': 'Deere', 'affected_by_negation': 'no', 'sense_list': [{'id': '228eaef205', 'info': 'sementity/[email protected][email protected][email protected]=Top>LivingThing>Animal>Vertebrate>Mammal\tsemld_list=sumo:Mammal\tsemtheme_list/[email protected]=Top>NaturalSciences>Zoology', 'form': 'deer'}, {'id': 'e7c6da7489', 'info': 'sementity/[email protected][email protected][email protected]=Top>Person>FirstName\tsemld_list=sumo:FirstName', 'form': 'Edere'}], 'separation': '_', 'style': {'isTitle': 'no', 'isItalics': 'no', 'isUnderlined': 'no', 'isBold': 'no'}, 'id': '1', 'inip': '0', 'topic_list': {'entity_list': [{'semld_list': ['sumo:FirstName'], 'form': 'Edere', 'sementity': {'id': 'ODENTITY_FIRST_NAME', 'class': 'instance', 'fiction': 'nonfiction', 'type': 'Top>Person>FirstName'}, 'id': 'e7c6da7489'}], 'concept_list': [{'semld_list': ['sumo:Mammal'], 'form': 'deer', 'semtheme_list': [{'id': 'ODTHEME_ZOOLOGY', 'type': 'Top>NaturalSciences>Zoology'}], 'sementity': {'id': 'ODENTITY_MAMMAL', 'class': 'class', 'fiction': 'nonfiction', 'type': 'Top>LivingThing>Animal>Vertebrate>Mammal'}, 'id': '228eaef205'}]}, 'analysis_list': [{'lemma': 'Edere', 'sense_id_list': [{'sense_id': 'e7c6da7489'}], 'tag': 'NPFS-N-', 'original_form': 'Edere', 'check_info': {'form_list': [{'form': 'Edere'}], 'tag': '6'}}, {'lemma': 'deer', 'sense_id_list': [{'sense_id': '228eaef205'}], 'tag': 'NC-S-N2', 'original_form': 'deer', 'check_info': {'form_list': [{'form': 'deer'}], 'tag': '6'}}, {'lemma': 'deer', 'sense_id_list': [{'sense_id': '228eaef205'}], 'tag': 'NC-P-N2', 'original_form': 'deer', 'check_info': {'form_list': [{'form': 'deer'}], 'tag': '6'}}], 'quote_level': '0', 'endp': '4'}], 'quote_level': '0'}])] 

それにもかかわらず、私はリストの特定の値にアクセスするための問題を抱えています。もう一つの可能​​な解決法は、パンダを使っている可能性があります。

+1

ですから、4つの特定のキーをしたいですか? –

+0

ヘルプ@PadraicCunninghamに値を持つ特定のキーをありがとう。 –

+1

これは 'analysis_list'の値のどこかに含まれていますか? –

答えて

1

次のコードは、あなたが探しているものを行うはずです。これは最もエレガントなアプローチではありませんが、うまくいけば明らかです。

import yaml 
from pprint import pprint 

with open('json_dict.json', 'rU') as f: 
    data = yaml.load(f) 

results = [] 
sementity_map = {} 

def extract_analysis(l): 
    for d in l: 
     out = { 
      'lemma': d['lemma'], 
      'original_form': d['original_form'], 
      'tag': d['tag'] 
     } 

     if 'sense_id_list' in d: 
      out['id'] = d['sense_id_list'][0]['sense_id'] 

     results.append(out) 

def extract_entities(l): 
    for d in l: 
     if 'sementity' in d and 'id' in d['sementity']: 
      sementity_map[ d['id'] ] = d['sementity']['id'] 


def find_analysis_and_entities(d): 
    if type(d) != dict: # Added for non-dict values 
     return # Fail 

    for k, v in d.items(): 
     if type(v) == list: 
      if k == 'analysis_list': 
       extract_analysis(v) 
      elif k == 'entity_list': 
       extract_entities(v) 
      else: 
       for do in v: 
        find_analysis_and_entities(do) 
     else: 
      find_analysis_and_entities(v) 

def apply_entities(e, m): 
    for d in e: 
     if 'id' in d: 
      if d['id'] in sementity_map: 
       d['id'] = sementity_map[ d['id'] ] 
      else: 
       del d['id'] 

find_analysis_and_entities(data) 
apply_entities(results, sementity_map)     

pprint(results) 

セマンティックIDについては、別のマップ辞書を保持し、最初の検索実行後に適用します。最初のfindは、裸のIDを持つ結果と意味エンティティマップの両方を構築するために使用されます。

問題の一部は、適用する必要がある位置を見つける前に、一致するセマンティックエンティティIDを見つけて渡したことを確認できないという事実に由来します(dictsの使用は助けて)。

ここでは、見つかった場合にのみIDマッピングを適用し、そうでなければそのIDフィールドを削除します。たとえば、a0a1a5401f__12123288058840445720の両方がentity_listブロック内にリストされていないため、resultsから削除されます。

あなたの例の入力ファイルと上記の出力は次のとおりです。

[{'lemma': 'Robert Downey Jr', 
    'original_form': 'Robert Downey Jr', 
    'tag': 'NPUU-N-'}, 
{'lemma': 'Robert Downey Jr', 
    'original_form': 'Robert Downey Jr', 
    'tag': 'GNUS3S--'}, 
{'lemma': 'top', 'original_form': 'has topped', 'tag': 'VI-S3PPA-N-N9'}, 
{'id': 'ODENTITY_MAGAZINE', 
    'lemma': 'Forbes', 
    'original_form': 'Forbes', 
    'tag': 'NP-S-N-'}, 
{'lemma': 'magazine', 'original_form': 'magazine', 'tag': 'NC-S-N5'}, 
{'lemma': 'magazine', 'original_form': 'Forbes magazine', 'tag': 'GN-S3---'}, 
{'lemma': "'s", 'original_form': "'s", 'tag': 'WN-'}, 
{'lemma': 'annual', 'original_form': 'annual', 'tag': 'AP-N5'}, 
{'lemma': 'list', 'original_form': 'list', 'tag': 'NC-S-N5'}, 
{'lemma': 'list', 'original_form': 'annual list', 'tag': 'GN-S3---'}, 
{'id': 'ODENTITY_INDUSTRIAL_COMPANY', 
    'lemma': 'John Deere', 
    'original_form': 'John Deere', 
    'tag': 'NP-S-N-'}, 
{'lemma': 'John Deere', 'original_form': 'John Deere', 'tag': 'GN-S3Y--'}, 
{'lemma': 'John Deere', 
    'original_form': 'annual list John Deere', 
    'tag': 'GN-S3---'}, 
{'lemma': 'John Deere', 
    'original_form': "Forbes magazine's annual list John Deere", 
    'tag': 'GN-S3D--'}, 
{'lemma': '*', 
    'original_form': "Robert Downey Jr has topped Forbes magazine's annual list " 
        'John Deere', 
    'tag': 'Z-----------'}] 
+0

私は実際に別のアプローチを試みました...私は質問を更新しました。問題は、私は 'RecursionError:maximum recursion depth exceeded 'を得ていることです。 –

+1

提供されている例や別のファイルでこのエラーが発生していますか? – mfitzp

+0

ご協力ありがとうございます。しかし、私は 'セメント'から 'id'を得ていません。この場合エンティティラベルは、[this](http://pastebin.com/Xaw4LwXj)が現在の出力です。この場合、予想されるエンティティラベルは 'id:ODENTITY_INDUSTRIAL_COMPANY'と' id: "ODENTITY_MAGAZINE"、 –

関連する問題