2016-11-09 9 views
1

私は愚かにウェブサイトの生のテキストコンテンツを読むことを試みています。 目的は、テキスト分析(単語の頻度など)のためのコーパスを作成することです。 だから私はすべてのHTMLが剥ぎ取らたい、とタグ内のコンテンツは、このコードを使用して文書本体の生テキストをrvestで読み込みますか?

:-)生のテキストとして返される:

thispage < - read_html(NEXTPAGE)
書き込み(thispage、ファイル、追加= TRUE、9月=「」)read_html()はポインタの配列を返すため

はエラーを生成します、インターフェイスは私を聞かせている場合、私はここでのErr MSGを提出する

が、私はちょうど赤を取得しますあなたの投稿appea rsにコードを含める "、そして、とにかくクロムで動作しない命令があります。

私はSelectorGadgetなどを使用してDOMの特定のオブジェクトを特定し、それらを取得できます。しかし、私はもっと簡単な方法を望んでいました。それは存在しますか?

おかげ+歓声、 自我

答えて

1

私はこするの標準rvest方法試すことをお勧め:あなたを選択したIDの当時、すべてのhtmlを取得すると、生のテキストグラブ:

"http://yoururl.com" %>% read_html() %>% html_nodes("#your_tag") %>% html_text() 
+0

確かに、それはどのような私ですが実現するようになった。 私はそれのためのフレームワークを持っている:ページネーション、すべてのURLをつかんで、それらをすべて訪問し、関連するブロック、次のページを擦って...など。 私は現在、タイトルだけを処理し、処理を別のファイルに保存しています。それで、私は後でより大きなコーパスを生成するために掻き取りを別々に開発することができます。 – edvin

関連する問題