この関数は、rテキストマイニングパッケージ(tm)を使用してツイートのURLを削除するスクリプトで使用しています。私の驚いたことに、クリーンアップ後に、いくつかの残った "http"単語とURL自体からのフラグメント(t.coなど)があります。一部のURLは完全に消去されているようですが、他の部分は単にコンポーネントに分解されているようです。何が原因だろうか?注:私はを取った。 t.co URLにStackOverflowではURLをt.coアドレスに送信することはできません。URLパッケージを削除するTMパッケージのgsub関数は、文字列全体を削除しません。
toSpace <- content_transformer(function (x , pattern) gsub(pattern, " ", x))
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "/")
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "@")
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, toSpace, "\\|")
removeURL <- function(x) gsub("(f|ht)tp(s?)://(.*)[.][a-z]+", "", x)
trumpcorpus1020to1109 <- tm_map(trumpcorpus1020to1109, removeURL)
あなたのremoveURL機能が探しているシンボルを削除する
vote today go https tco mxraxyntjy find polling location going make america great https tco kpqeyvwq
スラッシュを削除した後に 'removeURL()'関数を実行しているため、正規表現が実行されていません。何にもマッチするその 'tm_map()'を他のものの前に移動してください。 – MrFlick