検索可能なデータを構築するためにドキュメントを解析しようとしています。ドキュメントには、コロンで指定された複数のキーと値のペア:
があります。一部の行には、同じ行に複数のキーと値のペアがあります。トリッキーな部分は、コロンとは別に、キー名と値の両方の文字列が矛盾していることです。たとえば、コロンと値の間に1つのスペースまたは4つのスペースがあり、各値にスペースを入れることができ、同じ行内にあるキーと値のペアの間には不確定な数のスペースが存在することがあります。行から複数のキー値ペアを抽出する
例の文書:
Name: John Smith
Address: 123 Main St, Some City, ST 12345 Country: US
Date 1: 1/2/17 Date 2: 1/2/18
私は抽出する必要があります:値、限り、あなたがキーに任意の数のスペースを持つことができるよう
{
"Name" : "John Smith",
"Address" : "123 Main St, Some City, ST 12345",
"Country" : "US",
"Date 1" : "1/2/17",
"Date 2" : "1/2/18"
}
私は仮定と固定キーのアプローチ(これは私が避けようとしていた)に行かなければならないと思っていますが、これも非常に乱雑になっています。私は書類を再フォーマットすることを求めますが、処理が必要な年数と年数がありますので、手動で行うことは現実的ではありません。ありがとう。 – jyore