ツイッターデータの感情分析では、リトロットが結果を誤って繰り返すのでしょうか？

rのtwitterデータの感情分析をしています。しかし、より多くのツイートがデータで繰り返されます。 は結果に影響しますか？ツイッターデータの感情分析では、リトロットが結果を誤って繰り返すのでしょうか？

RT @Ananduvi：あなたは#demonetizationに対して今日の#BharathBandhをサポートしますか？

RT @Ananduvi：＃demonetizationに対して今日の#BharathBandhをサポートしますか？

はいの場合！どのようにそれに対処する？私はTwitterのデータセットからそのつぶやきを削除したい。

text<- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", text)

このコードでは人物の名前だけを削除しますが、そのままの状態にします。

私を助けてくれたらうれしいです。

結果には間違いありません。すべてのツイートに関連付けられたツイートIDを確認できます。重複IDを削除します。 –

つぶやきが繰り返されると、分析がスキューします。

Twitter APIを使用すると、ツイートがJSON形式で返されます。ツイートのIDフィールド（または「id_str」フィールド）を一意の識別子として扱い、特定のインスタンスのみを選択する必要があります。あなたのアナリティクスでは「id」です。

{"id": 123456789, "id_str": "123456789"}

上記のフィールドに各ツイートのインスタンスが1つだけ設定されていることを確認すると、この問題は回避されます。

2016-11-28 15:30:53

答えて