URLを取得するプログラムを作りたいと思っています。例えば は私がURLから情報を取得する
ブラック図書館ファンタジーThanquol & Boneripper Thanquolと骨リッパーウォーハンマーのように、「タグ」タブの下にあるすべての単語を検索するにはどうすればよい librarything
から、以下のURLを与えますか?
私はjavaを使用してデータマイニングラッパーを設計していますが、どのように起動するのかはわかりません。誰か助けてくれますか?
編集: あなたは私に素晴らしい助けをくれましたが、他に何か質問したいと思います。 すべてのタグについて、「数字」ボタンを押すと、各タグが何回使用されたかがわかります。その番号もどのように取得できますか?
私は、HTMLをプッシュするつもりならPythonまたはPerlの使用をお勧めします。私はあなたの例に似たプログラムを作ったときにPythonで良い経験をしてきましたが、現時点で何かを実際に共有することはできません。 [PythonでのHTMLの解析](http://docs.python.org/library/htmlparser.html)専用のライブラリがあります。また、[regex](http://docs.python.org/ library/re.html)および[urllib](http://docs.python.org/library/urllib.html)を参照してください。 – Griffin
@Griffin:DOMベースのパーサであると思われますが、醜い定型コードのみになります。また、正規表現を使用してHTMLを解析するのは簡単です(http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhuway.html)。 – BalusC
@BalusC私はHTMLパーサを自分で使用していません。正規表現を使用した後、FreenodeのPythonチャンネルでそのライブラリにリダイレクトされました。それに関しては意見が異なるようですが、大丈夫だと言う人もいれば大丈夫だと言う人もいます。リンクをありがとう、私はそれをチェックします。 – Griffin