1
XML
ソースをdatabricks
から使用しています。ここに私のXML
サンプルデータがあります。 (彼らはhs id
によってグループ化] XML
ファイルに現れるのと同じ順序で)Sparkおよびgroupby操作のXMLソース
<ds Name="abc">
<node begin="18" end="22" val="Organic" type="type1">
<hs id="0" begin="18" end="91" />
</node>
<node begin="22" end="23" val="Cereal">
<hs id="0" begin="18" end="91" />
</node>
<node begin="23" end="25" val="Kellogs" type="type2">
<hs id="0" begin="18" end="91" />
</node>
<node begin="22" end="23" val="Harry" type="type1">
<hs id="1" begin="108" end="520" />
</node>
<node begin="23" end="25" val="Potter" type="type1">
<hs id="1" begin="108" end="520" />
</node>
</ds>
は、私はすべてのnode.val
を組み合わせたいです。例えば
、上記データのためのO/Pにすべきである:
名HS番号ヴァル
ABC 0有機穀物
ABC 1ハリーポッター
ここで私はdatabricksからXMLソースをロードしています:
データセットをhs id
でグループ化する方法がわかりません。注文が確実に保持されていることを確認してください。
val df_ds = sqlContext.sql("SELECT Name, node.type from ds")
コード内の小さなバグがありました.toString)):+ row.getAs [String]( "pos") – user3803714