2017-09-20 19 views
0

XMLを含む.txtファイルに保存されたデータがあります。最初の行をヘッダーとして約35k行あり、このデータをデータフレームに抽出したいと思います。テキストファイルに保存されたxmlデータを読み込むR

私はデータからの抜粋は以下のようになりますRにデータを読み取るためにreadLinesを使用:

[1] "H|TASK_ID|TASK_REFERENCE|TASK_NAME|TASK_TYPE|TASK_RAISED_TS|TASK_STATE|TASK_VIEWED_FLAG|TASK_OUTCOME|CURRENT_QUEUE|QUEUE_CHANGE_TS|TASK_XML_DATA|SCORE_XML_DATA|CREATED_TS|CREATED_BY|LAST_UPDATED_TS|LAST_UPDATED_BY|VERSION_NO|TASK_ADOPTED_FLAG" 

[2] "B|\"12\"|\"137####_2A62###\"|\"137####_2A62###\"|\"Claim\"|\"14APR2015:23:36:04\"|\"AwaitingTriageEast\"|\"N\"|\" \"|\"4\"|\".\"|\"<?xml version=\"1.0\" encoding=\"UTF-8\"?><tasks xmlns=\"xyz.com/network/workbench/task\"><task><taskxml><Claim prDocumentIdentifier=\"137####_2A62###\"><ID>519_1</ID><ClaimNumber>137####_2A62###</ClaimNumber><SearchClaimNumber>2A62###</SearchClaimNumber><PolicyNumber>28352##_SP23A2####</PolicyNumber><SearchPolicyNumber>SP23A2####</SearchPolicyNumber><AmendmentNumber>5007####</AmendmentNumber><AmendmentDatetime>2016-10-31T14:44:02</AmendmentDatetime><FreeTextDescription>INS PASSENGER IN UNINSURED AUTOMOBILE THAT VEERED OFF THE RD INTO A DITCH</FreeTextDescription><ClaimCauses><ClaimCause><ActualValue>THIRD PARTY STRUCK INSURED'S PARKED VEHICLE</ActualValue><Category>MOTOR_ACCIDENT_TP_HIT_FP</Category></ClaimCause></ClaimCauses><IncidentDate>2006-10-13</IncidentDate><IncidentTime>14:30:00.000</IncidentTime><IncidentDateTime>2006-10-13T14:30:... <truncated> 

私はデータフレームを作るために、ここから進むにはどうすればよいですか?私はXML関連のパッケージが新しくなっています。だから、どんな助けも高く評価されます。

+0

このデータは、パイプではなくxmlで区切られています。そうですか? – amrrs

+0

少なくとも1つのフィールドにXMLがあります。 – hrbrmstr

+0

@amrrs - データはパイプで区切られ、xmlを含むいくつかのカラムがあります。 – Debbie

答えて

0

データが "df.txt"というファイルに含まれています。それからsep = "|"という表を読み込むだけです。 like:

df = read.table("df.txt", sep="|") 
+0

@ Aleksandr - ポインタありがとう。私は今、エラー 'スキャンでエラーが発生しました(ファイル=ファイル、何=何、SEP = SEP、引用=見積もり、デク=デク: 行368は19の要素を持っていませんでした)。 – Debbie

+0

header = TRUE、fill = TRUE、つまりread.table( "df.txt"、sep = "|"、header = TRUE、fill = TRUE)を追加してみてください –

+0

@ Aleksandr - これは魅力的です。データフレーム内の2つの列は依然としてXML形式ですが、そのうちの1つは次のようになります:<?xml version = \ "1.0 \" encoding = \ "UTF-8 \"?> 519_1 137 #### _ 2A62 ### 2A62 ### 28352 ## _ SP23A2 #### SP23A2 #### '。任意のこれらの列から有益な情報を抽出する方法の指針? – Debbie

関連する問題