2016-08-07 1 views
4

pyparsingを使用すると、再帰的な降下中のコンテキストを抽出することができます。私が何を意味するのか説明しましょう。テキスト構造情報を保持する - pyparsing

import pyparsing as pp 

openBrace = pp.Suppress(pp.Literal("{")) 
closeBrace = pp.Suppress(pp.Literal("}")) 
ident = pp.Word(pp.alphanums + "_" + ".") 
comment = pp.Literal("//") + pp.restOfLine 
messageName = ident 
messageKw = pp.Suppress(pp.Keyword("msg")) 
text = pp.Word(pp.alphanums + "_" + "." + "-" + "+") 
otherText = ~messageKw + pp.Suppress(text) 
messageExpr = pp.Forward() 
messageExpr << (messageKw + messageName + openBrace + 
       pp.ZeroOrMore(otherText) + pp.ZeroOrMore(messageExpr) + 
       pp.ZeroOrMore(otherText) + closeBrace).ignore(comment) 
testStr = "msg msgName1 { some text msg msgName2 { some text } some text }" 
print messageExpr.parseString(testStr) 

この出力生成します:私は、次のコードを持っている出力では['msgName1', 'msgName2']

を、私が埋め込まれた試合の構造を追跡したいと思います。私が意味することは、たとえば、上記のテスト文字列を使用して次の出力をしたいとします:['msgName1', 'msgName1.msgName2']は、テキスト内の階層を追跡します。しかし、私はpyparsingには新しく、まだ "msgName2"が "msgName1"の構造に埋め込まれているという事実を抽出する方法を見つけていません。

ParserElementsetParseAction()メソッドを使用する方法がありますか、または結果の命名を使用していますか?

参考になりますようお願い申し上げます。

+1

外部スタックに名前をプッシュする 'messageName'に解析アクションを添付しますその最後の名前をスタックからポップするために、parseアクションをcloseBraceに付加します。最初の解析アクションでは、現在の名前をスタックにプッシュした後、入力トークンの名前を 'tokens [0] = '。'と置き換えることができます。 – PaulMcG

答えて

2

ポール・マクガイアのおかげで、ここでは、問題を解決し、私が作ったの追加/変更は、以下のとおりです。

msgNameStack = [] 

def pushMsgName(str, loc, tokens): 
    msgNameStack.append(tokens[0]) 
    tokens[0] = '.'.join(msgNameStack) 

def popMsgName(str, loc, tokens): 
    msgNameStack.pop() 

closeBrace = pp.Suppress(pp.Literal("}")).setParseAction(popMsgName) 
messageName = ident.setParseAction(pushMsgName) 

そしてここでは、完全なコードは次のとおりです。

import pyparsing as pp 

msgNameStack = [] 


def pushMsgName(str, loc, tokens): 
    msgNameStack.append(tokens[0]) 
    tokens[0] = '.'.join(msgNameStack) 


def popMsgName(str, loc, tokens): 
    msgNameStack.pop() 

openBrace = pp.Suppress(pp.Literal("{")) 
closeBrace = pp.Suppress(pp.Literal("}")).setParseAction(popMsgName) 
ident = pp.Word(pp.alphanums + "_" + ".") 
comment = pp.Literal("//") + pp.restOfLine 
messageName = ident.setParseAction(pushMsgName) 
messageKw = pp.Suppress(pp.Keyword("msg")) 
text = pp.Word(pp.alphanums + "_" + "." + "-" + "+") 
otherText = ~messageKw + pp.Suppress(text) 
messageExpr = pp.Forward() 
messageExpr << (messageKw + messageName + openBrace + 
       pp.ZeroOrMore(otherText) + pp.ZeroOrMore(messageExpr) + 
       pp.ZeroOrMore(otherText) + closeBrace).ignore(comment) 

testStr = "msg msgName1 { some text msg msgName2 { some text } some text }" 
print messageExpr.parseString(testStr) 
関連する問題