twitter4j - サンプリングレートを制御する

twitter4jライブラリを使用して、最近1週間の特定のクエリに関連するツイートをクロールする必要があります。私はバルク収集バッチ再起動可能なプログラムを書いて、一晩中実行して約5 GBのツイートを収集しました。私はこれらがTwitter APIによって1％でサンプリングされていると信じています。今週はつぶやきが必要ですが、これは私にとって膨大な量のデータです。私はちょうど先週の代表者であるつぶやきが必要です。私はtwitter4jの設定でサンプリングレートを制御できる方法があるかどうか疑問に思っていました。あなたは、サンプルレートを下げることができないtwitter4j - サンプリングレートを制御する

出典

2016-05-27 Yogendra Miraje

質問の投票理由を説明していただければ幸いです。質問に間違っているか明確でないものはありますか？ –

サンプルレートを下げることはできません。1時間にランダムなツイートの10％を回収したり、いくつかのフィルターを使用したりするなど、満足できるアプローチをとる必要があります。 – FeanDoe

はい。それが私がそれを実装した方法です。返信してくれてありがとう。答えに追加することができます。 –

、あなたはランダムなツイートの10％を取るように、あなたを満足させるアプローチをしなければならないあなたが好きな...時間に想起または一部filtersを使用して！

出典

2016-05-30 00:41:07 FeanDoe

twitter4j - サンプリングレートを制御する

答えて

関連する問題