0
IMDBで映画のレビューを抽出しましたが、別々のレビューにはそれらの間に空白行がたくさんあります。それは構造化されておらず、見るのが非常に難しいです。 それぞれ別々の関数を個別に適用してから、いくつかの他の関数のテキストマイニングのために1つを一緒に格納する必要があります。rvestを使用してIMDBからムービーレビューを削る
どうすればそれらを構造化(クリーンアップ)し、一度に1つずつアクセスし、それらを結合して一緒に保存することができますか?
は、ここでレビュー
ID <- 1490017
URL <- paste0("http://www.imdb.com/title/", ID, "/reviews?filter=prolific")
MOVIE_URL <- read_html(URL)
ex_review <- MOVIE_URL %>%
html_nodes("p") %>%
html_text()
これにより、抽出が大幅に改善されました。回答が大変ありがとうございます。しかし、私の主な問題は、私がそうすることができないので、私が抽出したレビューを処理することができたことです。各レビューの間に複数の行を削除するのと同じように処理してください。また、すべてのレビューの一つの大きなパラグラフを形成するためにテキストを組み合わせる。私は全体的な分析も行う必要があるからです。 –
私の編集した回答はあなたのために機能しますか? – motorrrr
この方法で改行が削除されることはありません。他のものはうまく動作します:) –