類似の文書をどのように一致させるか

私は2つのコーパスを作成しました.1つはツイートテキストを含み、もう1つは会社名を含んでいます。私がしようとしているのは、どの企業がつぶやきで言及されているかを見つけることです。つぶやきの類似の文書をどのように一致させるか

例の文書：

> writeLines(as.character(tweet_corp[[175]])) 
general motor send mexican made model chevi cruze us car dealer tax free across border make usaor pay big border tax

会社の例のドキュメント：

> writeLines(as.character(company_corp[[1397]])) 
general motor

私はcompany_corp [[1397]]と[[175]] tweet_corp一致した出力をしたいと思います。これを行う方法はありますか？

出典

2017-03-25 abourg28

stringrパッケージを使用すると、会社名がつぶれたかどうかを確認できます。

library(stringr) 

company_name <- "general motor" 

tweet <- "general motor send mexican made model chevi cruze us car dealer tax free across border make usaor pay big border tax" 

# check whether a company name occurs in a string 
str_detect(
    string = tweet, 
    pattern = coll(company_name) 
)

出典

2017-03-25 23:35:22 67342343

類似の文書をどのように一致させるか

答えて

関連する問題