2017-10-10 3 views
0

私はRの初心者です。私はこのようなCSVファイルを読み込もうとしています。CSVファイルを読み込んでトークン化します。

tweets <- read.csv("tweets.csv") 

と私はコーパスか何かに変換することなく、「ツイート」、句読点のすべてを削除する例を下げるために変換し、データフレームから番号&ストップワード&空白を削除できるようにする必要があります。何もそれをただまっすぐ削除することを空想する。この問題の解決に役立つライブラリ/関数はありますか? csvファイルの一部を読む

+0

に適用することが容易になることができるようです。私はこれを2つの質問に分けることをお勧めします.1つはCSVファイルを読んで問題(エラーメッセージとファイルのサンプルを共有してください)ともう1つの質問です。あなたが試したこと)。 – Gregor

+0

CSVファイルを正常に読み取った場合は、それ以上言及しないでください。「私はきれいにする必要があるデータフレームがあります」と言います。しかし、まだあなたが試したことを示してください。 Rタグを検索して[句読点を削除](リンク先はクリック)](https://stackoverflow.com/search?q=%5Br%5D+remove+punctuation) 。ツール/パッケージ/ライブラリのリクエストはオフトピックです。 – Gregor

+0

私はこれを試しましたが、動作しませんでした。私がオンラインで見つけている他のほとんどの機能も同じことをしています.. tw [] < - lapply(tw、function(x){ if(is.list(x)){ lapply(x、function(y ){TOLOWER (GSUB( "[、]"、 ""、Y)) }(GSUB(TOLOWER他{ ) } "[、]"、 ""、X)) } }) tw 私はこれを得ています: $ tolower.as.matrix.tw .. [1] "" "" –

答えて

0

はあなたが

tweets <- read.csv("tweets.csv") 

を定義したものであるが、句読点を扱うために、空白コーパスを使用したことを除いて、他のアプローチは、正規表現を使用することですが、それはでジェネリックではないとして、それは限られたアプリケーションを持っていますすべて

我々はコーパスを好む理由は、それが異なるステップであるクリーニング/ CSVファイルを読み込み、その後、処理の異なるソース

+0

ありがとうございました。それはできました。 –

関連する問題