2017-03-25 13 views
0

私は2つのコーパスを作成しました.1つはツイートテキストを含み、もう1つは会社名を含んでいます。私がしようとしているのは、どの企業がつぶやきで言及されているかを見つけることです。つぶやきの類似の文書をどのように一致させるか

例の文書:

> writeLines(as.character(tweet_corp[[175]])) 
general motor send mexican made model chevi cruze us car dealer tax free across border make usaor pay big border tax 

会社の例のドキュメント:

> writeLines(as.character(company_corp[[1397]])) 
general motor 

私はcompany_corp [[1397]]と[[175]] tweet_corp一致した出力をしたいと思います。これを行う方法はありますか?

答えて

0

stringrパッケージを使用すると、会社名がつぶれたかどうかを確認できます。

library(stringr) 

company_name <- "general motor" 

tweet <- "general motor send mexican made model chevi cruze us car dealer tax free across border make usaor pay big border tax" 

# check whether a company name occurs in a string 
str_detect(
    string = tweet, 
    pattern = coll(company_name) 
) 
関連する問題