XXXでAlphaGoに関連するすべてのニュース(タイトル、URL、テキスト)をクロールするにはRを使い、ページURLはhttp://www.xxxxxx.com/search/?q=AlphaGo
です。ここに私のコードは次のとおりです。私は私がターゲットにコードを発見したかどうかを確認するためのコードクロールデータに情報がありません
xpathSApply(parsedpage,"//h3//a",xmlGetAttr,"href")
を使用する場合
url <- "http://www.xxxxxx.com/search/?q=AlphaGo"
info <- debugGatherer()
handle <- getCurlHandle(cookiejar ="",
#turn the page
followlocation = TRUE,
autoreferer = TRUE,
debugfunc = info$update,
verbose = TRUE,
httpheader = list(
from = "[email protected]",
'user-agent' = str_c(R.version$version.string,
",",R.version$platform)
))
html <- getURL(url,curl=handle,header = TRUE)
parsedpage <- htmlParse(html)
しかし、私は、関連ニュースの情報のすべてのコンテンツが不足していることがわかります。それから、F12
には、私が望む情報が含まれていて、sources
には何も入っていない(実際には、すべての要素が一緒に積み上げられているように、ちょっと混乱している)DOM elements
(Chromeは私が使ったもの)だから私は自分のコードを次のように変更します:
parsed_page <- htmlTreeParse(file = url,asTree = T)
代わりにDOMツリーを取得したいと考えています。 まだ、情報が欠落していますが、私が見つけたものはすべて、DOM elements
で折りたたまれた情報です(前にこのような状況に会ったことはありません)。
どのように問題が発生し、どのように私はこれを修正することができますか?
どのような出力が必要ですか?各ページのURLまたはテキストのリスト? –
どちらも私のコードに間違っていますか? – exteralvictor
あなたはCNN ToCの項目3に違反しています。罰金や刑務所に上陸する可能性のある倫理に反する行動をするよう助けてくれるように他の人に知らせるようにしてください。 – hrbrmstr