さて、私は完全に迷っています。依存関係ツリーの出力を平坦な構造に解析する方法
(S
(NP
(PRP It)
)
(VP
(VBD said)
(CLAUSE
(S
(NP
(DT the)
(NN figure)
)
(VP
(VBD was)
(VBN rounded)
)
)
)
)
(PUNC .)
)
これらの解析の出力はプレーンテキストとして保存されています。私は、次のような依存関係ツリー解析ツールからいくつかの出力を持っています。出力は基本的に私が知る限りバイナリツリーです。私が望むのは、各単語が新しい行にあり、各単語にその単語に関連するすべてのラベルが含まれている出力ファイルを持つことです。例:
It S NP PRP
said S VP
the S VP CLAUSE S NP DT
figure S VP CLAUSE S NP NN
was S VP CLAUSE S VP VBD
rounded S VP CLAUSE S VP VBN
. PUNC S
私はこの出力をどのように解析して私が探している出力にすることができますか?私はpyparsing
ライブラリを使用しようとしましたが、文字列をリストの階層リストに解析することができましたが、これは出力ニーズにあまり合わないものです。
私は再帰はおそらくここでは良い候補ツールだと思いますが、この問題にどのように適用するかはわかりません。これについての助けになるでしょう - 実装のアイディアを得るための疑似コードさえ。