指定されたWebページに文字(a、b、cなど)のヒストグラムを作成しようとしています。私はハッシュを使ってヒストグラムそのものを作るつもりです。しかし、私は実際にHTMLを取得するには少し問題があります。RubyでHTMLテキストをダウンロード
私の現在のコード:
#!/usr/local/bin/ruby
require 'net/http'
require 'open-uri'
# This will be the hash used to store the
# histogram.
histogram = Hash.new(0)
def open(url)
Net::HTTP.get(URI.parse(url))
end
page_content = open('_insert_webpage_here')
page_content.each do |i|
puts i
end
これはHTMLを得るための良い仕事をしていません。しかし、それはすべてそれを取得します。 www.stackoverflow.comのために私にそれを与える:
<body><h1>Object Moved</h1>This document may be found <a HREF="http://stackoverflow.com/">here</a></body>
私は正しいページであるとふりをした、私はHTMLタグを望んでいない。私はちょうどObject Moved
とThis document may be found here
を得ようとしています。
これを実行する方法はありますか?
http://stackoverflow.com/questions/2505104/html-to-plain-text-with-ruby ます。http:// stackoverflowの.com/questions/2505104/html-to-plain-text-with-ruby – Flexoid
ノコギリなしで追加したはずです。私は使用するためにそれがインストールされていない私の学校のサーバーからそれを実行しています。 – Linell