XMLを含む.txtファイルに保存されたデータがあります。最初の行をヘッダーとして約35k行あり、このデータをデータフレームに抽出したいと思います。テキストファイルに保存されたxmlデータを読み込むR
私はデータからの抜粋は以下のようになりますRにデータを読み取るためにreadLinesを使用:
[1] "H|TASK_ID|TASK_REFERENCE|TASK_NAME|TASK_TYPE|TASK_RAISED_TS|TASK_STATE|TASK_VIEWED_FLAG|TASK_OUTCOME|CURRENT_QUEUE|QUEUE_CHANGE_TS|TASK_XML_DATA|SCORE_XML_DATA|CREATED_TS|CREATED_BY|LAST_UPDATED_TS|LAST_UPDATED_BY|VERSION_NO|TASK_ADOPTED_FLAG"
[2] "B|\"12\"|\"137####_2A62###\"|\"137####_2A62###\"|\"Claim\"|\"14APR2015:23:36:04\"|\"AwaitingTriageEast\"|\"N\"|\" \"|\"4\"|\".\"|\"<?xml version=\"1.0\" encoding=\"UTF-8\"?><tasks xmlns=\"xyz.com/network/workbench/task\"><task><taskxml><Claim prDocumentIdentifier=\"137####_2A62###\"><ID>519_1</ID><ClaimNumber>137####_2A62###</ClaimNumber><SearchClaimNumber>2A62###</SearchClaimNumber><PolicyNumber>28352##_SP23A2####</PolicyNumber><SearchPolicyNumber>SP23A2####</SearchPolicyNumber><AmendmentNumber>5007####</AmendmentNumber><AmendmentDatetime>2016-10-31T14:44:02</AmendmentDatetime><FreeTextDescription>INS PASSENGER IN UNINSURED AUTOMOBILE THAT VEERED OFF THE RD INTO A DITCH</FreeTextDescription><ClaimCauses><ClaimCause><ActualValue>THIRD PARTY STRUCK INSURED'S PARKED VEHICLE</ActualValue><Category>MOTOR_ACCIDENT_TP_HIT_FP</Category></ClaimCause></ClaimCauses><IncidentDate>2006-10-13</IncidentDate><IncidentTime>14:30:00.000</IncidentTime><IncidentDateTime>2006-10-13T14:30:... <truncated>
私はデータフレームを作るために、ここから進むにはどうすればよいですか?私はXML関連のパッケージが新しくなっています。だから、どんな助けも高く評価されます。
このデータは、パイプではなくxmlで区切られています。そうですか? – amrrs
少なくとも1つのフィールドにXMLがあります。 – hrbrmstr
@amrrs - データはパイプで区切られ、xmlを含むいくつかのカラムがあります。 – Debbie