0
twitter4jライブラリを使用して、最近1週間の特定のクエリに関連するツイートをクロールする必要があります。私はバルク収集バッチ再起動可能なプログラムを書いて、一晩中実行して約5 GBのツイートを収集しました。私はこれらがTwitter APIによって1%でサンプリングされていると信じています。 今週はつぶやきが必要ですが、これは私にとって膨大な量のデータです。私はちょうど先週の代表者であるつぶやきが必要です。私はtwitter4jの設定でサンプリングレートを制御できる方法があるかどうか疑問に思っていました。あなたは、サンプルレートを下げることができないtwitter4j - サンプリングレートを制御する
質問の投票理由を説明していただければ幸いです。質問に間違っているか明確でないものはありますか? –
サンプルレートを下げることはできません。1時間にランダムなツイートの10%を回収したり、いくつかのフィルターを使用したりするなど、満足できるアプローチをとる必要があります。 – FeanDoe
はい。それが私がそれを実装した方法です。返信してくれてありがとう。答えに追加することができます。 –