こんにちはからのリンクを抽出することは、私のスクリプトです:RubyはここにHTML
ARGV.each do |input_filename|
doc = Nokogiri::HTML(File.read(input_filename))
title, body = doc.title.gsub("/\s+/"," ").downcase.strip, doc.xpath('//body').inner_text.tr('"', '').gsub("\n", '').downcase.strip
link = doc.search("a[@href]") //Adding this part generates errors
filename = File.basename(input_filename, ".*")
puts %Q("#{title}", "#{body}", "#{filename}", "#{link}").downcase
end
私はトラブルのhtmlファイルのリストからのリンクを抽出することが生じています。私はこの問題がhtmlファイルのいくつかの形式によらないコード化によるものだと考えています。ここに私が得るエラーがあります。
extractor.rb:9:in `block in <main>': incompatible character encodings: UTF-8 and CP850 (Encoding::CompatibilityError)
from extractor.rb:4:in `each'
from extractor.rb:4:in `<main>'
詳細な説明ありがとうございます。ほんとうにありがとう – user1290757