2016-11-28 11 views
1

rのtwitterデータの感情分析をしています。しかし、より多くのツイートがデータで繰り返されます。 は結果に影響しますか?ツイッターデータの感情分析では、リトロットが結果を誤って繰り返すのでしょうか?

RT @Ananduvi:あなたは#demonetizationに対して今日の#BharathBandhをサポートしますか?

RT @Ananduvi:#demonetizationに対して今日の#BharathBandhをサポートしますか?

はいの場合!どのようにそれに対処する?私はTwitterのデータセットからそのつぶやきを削除したい。

text<- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", text) 

このコードでは人物の名前だけを削除しますが、そのままの状態にします。

私を助けてくれたらうれしいです。

+0

結果には間違いありません。すべてのツイートに関連付けられたツイートIDを確認できます。重複IDを削除します。 –

答えて

0

つぶやきが繰り返されると、分析がスキューします。

Twitter APIを使用すると、ツイートがJSON形式で返されます。ツイートのIDフィールド(または「id_str」フィールド)を一意の識別子として扱い、特定のインスタンスのみを選択する必要があります。あなたのアナリティクスでは「id」です。

{"id": 123456789, "id_str": "123456789"} 

上記のフィールドに各ツイートのインスタンスが1つだけ設定されていることを確認すると、この問題は回避されます。

関連する問題