arXiv電子プリントアーカイブには、さまざまな科学分野の数テラバイトの論文があります。一部のユーザーは、このデータの完全なコピーを自分のコンピュータで管理したいと思っている人もいれば、最新の論文を特定のカテゴリにダウンロードしたい人もいます。彼らは、何らかの種類の分散ダウンロードシステム(例えば、BitTorrent)を使用して帯域幅の負荷を軽減しようとしている。私はこのすべてをカバーするプログラムや一連のプログラムのアイデアを探しています。ArXivレプリケーションブレインストーミング
0
A
答えて
1
完全なpdfコンテンツはアマゾンクラウドにあります。 PDFファイルの合計サイズがT.
< 1/2 TBhttp://arxiv.org/help/bulk_data_s3
ありながら> arXivの上の600K論文で関わる人々の
0
私の最初のアイデアは、Usenetニュースグループのように見えて、サーバー上のメッセージに無限の永続性があるということです。私はそれがPDFでどれくらいうまく動作するかはわかりません。
1
arXiv recommends squid httpdアクセラレータモードで正確にこの目的のためです。なぜこれで十分ではないのか?
関連する問題
- 1. RSSフィードリーダーとarxivとの互換性
- 2. インポートExcelにArxivメタデータ(Atom Feed)を取得
- 3. lxml find要素を使用してAPIからArxiv XMLを解析する
- 4. RLでProximal Policy Optimization Algorithmを理解する方法は何ですか?
- 5. テンソルフローの多レベルフィーチャ融合
- 6. matlabで画像をマスクとして適用する
- 7. Orgキャプチャ拡張用のカスタマイズされたorg-capture-template
- 8. FailedPreconditionError:sequence_length(0)<= X
- 9. 一時的なネットワークでコミュニティを検出するためのデータセットがありません
- 10. テンソルフロー検出APIトレーニングのハイパーパラメータの選択
- 11. tf.nn.depthwise_conv2dが遅すぎます。それは普通ですか?
- 12. Python3.6 - インターネットからダウンロードする前にファイルがローカルフォルダにあるかどうかを確認します。
- 13. すべての行にPython/SQL-WHERE句が適用されない
一つは、まず第一に、」それはすべきであると述べましたarXivのロボットポリシーのおかげで、現在のところこのようなものはありません。言い換えれば、15年以上の研究では、ニブルベースでアクセス可能ですが、実際にはアクセスできません。この新しいプロジェクトのポイントは、arXiv全体をダウンロードできるようにすることです。 – sep332