もっと一般的になるように私の質問を編集しました: "rを使用してテーブルをスクラップする方法はありますか?テーブルを掻き集めることは必ずしも容易ではありません
まず、rvest
のような関数がどのような形式で抽出できるのかをどうすればわかりますか?
次に、使用可能なすべてのスクレイピング機能を試してみて失敗したとします。どうすればいいですか?自分で解析関数を書く?それを行う簡単な方法はありますか?
このインスタンスではreadHTMLTable
が機能しない場合、巨大な文字列操作でhtmlコードを解析する以外に、私が追求すべき他のオプションは何ですか?
FMを読む:ヘルプの例は、まずドキュメントを読み込みます。 'doc = htmlParse(url);tableNodes = getNodeSet(doc、 "// table"); tb = readHTMLTable(tableNodes [[2]]) ' –
さらに、HTML表のようには見えません。テーブルを見ているかもしれませんが、実際は別の構造を持っています。 –
XML指向の機能で読書を試みてください。 –