2017-07-19 11 views
2

1秒以下で更新する必要があるRSSフィードがたくさんあります。部分的なチェックや変更、ファイルサイズの確認、最新の記事を表示して帯域幅を減らすようなRSSフィードの変更など、あらゆる問題を解決するソリューションはありますか?この質問は本当にその解決策には一般的ですが、RSSフィードに固有のものですので、私が見逃しているかもしれない別のタグを自由に追加してください。RSSフィード1秒以下の更新

+1

これらのRSSフィードのソースを指定して制御しますか?このスケールでデータを要求しようとすると、第三者がブロックする可能性があります。 – Stefan

+0

@Stefan RSSフィードの量が膨大なため、一度にロードして処理する時間がないため、これを不可能にします。 – CodeCamper

+0

私たちは何冊の飼料を飲んでいますか?そしてあなたのサーバー構成は何ですか?利用可能な帯域幅は何ですか?そしてあなたの解決策はスケール可能ですか? – Stefan

答えて

0

コメントはありません。

帯域幅

いくつかの計算を行うことができます:一般的なRSSフィードは、(画像を除く)どこか200KB前後になることができます。毎秒1000ポーリングするには、200MB/sの帯域幅が必要です。これはプロのインターネット接続で可能になります。あなたは一度に複数の接続が必要なので、マルチスレッド設定が必要です。この設定により、処理時間がCPUの処理能力を必要とする場合は、最終的に複数のサーバーに拡張するのが容易になります。

これは画像がないことにご注意ください。

skiphoursttlなどの仕様に注意してください。サービスのポーリングに関するヒントを提供します。

https://cyber.harvard.edu/rss/rss.html

処理

RSS-アイテムは、通常pubDateを持って、あなたはあなたの処理フロー内の項目を除外するためにこれを使用することができます。これはボトルネックであってはなりません。データをデータベースに保存する場合は、最適化するためにデータに潜り込む必要があります。

潜在的な問題

  • 過度の呼び出し
  • フィード内のAdvertisments彼らはpubDateに要求日付/時刻を使用する場合(特に(私は)CNNはこれを行う傾向がある知っているにブロックします。
+0

過度の呼び出しに対して具体的な例や一般的なヒントはありますか? 1日に5秒ごとまたは1時間ごとまたは500回以上と同じように?私たちがこれを行う一般的なサイトを知っていれば好奇心が強いですし、それを打つことを避けるためには限界があります。 – CodeCamper

+0

完全にフィードの所有者に依存します。私はこれがあなたを助けてくれないことを知っていますし、使用制限はめったに簡単にアクセスできません。しかし、私たちがinstagram(RSSフィードではないことはわかっています)を見てみると、例が見つかります:https://www.instagram.com/developer/limits/ – Stefan