私はすべてのハッシュ値を保存したいと思うCSVを持っています。私はnokogiriサックスを使用してXML文書を解析し、それをCSVに保存しています。ハッシュをCSVに変換する
SAXパーサー:
require 'rubygems'
require 'nokogiri'
require 'csv'
class MyDocument < Nokogiri::XML::SAX::Document
HEADERS = [ :titles, :identifier, :typeOfLevel, :typeOfResponsibleBody,
:type, :exact, :degree, :academic, :code, :text ]
def initialize
@infodata = {}
@infodata[:titles] = Array.new([])
end
def start_element(name, attrs)
@attrs = attrs
@content = ''
end
def end_element(name)
if name == 'title'
Hash[@attrs]["xml:lang"]
@infodata[:titles] << @content
@content = nil
end
if name == 'identifier'
@infodata[:identifier] = @content
@content = nil
end
if name == 'typeOfLevel'
@infodata[:typeOfLevel] = @content
@content = nil
end
if name == 'typeOfResponsibleBody'
@infodata[:typeOfResponsibleBody] = @content
@content = nil
end
if name == 'type'
@infodata[:type] = @content
@content = nil
end
if name == 'exact'
@infodata[:exact] = @content
@content = nil
end
if name == 'degree'
@infodata[:degree] = @content
@content = nil
end
if name == 'academic'
@infodata[:academic] = @content
@content = nil
end
if name == 'code'
Hash[@attrs]['source="vhs"']
@infodata[:code] = @content
@content = nil
end
if name == 'ct:text'
@infodata[:beskrivning] = @content
@content = nil
end
end
def characters(string)
@content << string if @content
end
def cdata_block(string)
characters(string)
end
def end_document
File.open("infodata.csv", "ab") do |f|
csv = CSV.generate_line(HEADERS.map {|h| @infodata[h] })
csv << "\n"
f.write(csv)
end
end
end
ストアがフォルダ内にあるすべてのファイルのための新しいオブジェクトを作成する(47.000xmlファイル):
parser = Nokogiri::XML::SAX::Parser.new(MyDocument.new)
counter = 0
Dir.glob('/Users/macbookpro/Desktop/sax/info_xml/*.xml') do |item|
parser.parse(File.open(item, 'rb'))
counter += 1
puts "Writing file nr: #{counter}"
end
問題:私を得るいけない 新しい値のセットごとに新しい行が追加されます。何か案は?コードを試すため
3 xmlファイル: https://gist.github.com/2378898 https://gist.github.com/2378901 https://gist.github.com/2378904
私はこのような何かを試してみてくださいもう一度言うと、 'b'モードはcsvデータで意味をなさない。 – pguardiario