2016-05-22 3 views
0

私はプログラミングに新しい(私は喜んで学んでいるが)ので、私の非常に基本的な質問のために事前に謝罪する。EDGAR FTPファイルパスリストを生成する

[SECはFTP経由ですべてのファイルを利用できます] [1]、結局、これらのファイルの一部を一括してダウンロードしたいと思います。しかし、そのようなスクリプトを作成する前に、私はこのフォーマットに従って、これらのファイルの場所のリストを生成する必要があります。

/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm

  • 51143 =会社のID、および私はすでに、私は別名 "受付番号"
FTP
  • 000005114313000007/0000051143-13-000007 =レポートIDを介して必要な企業IDのリストにアクセス

    私はドキュメントがかなり軽いのでこれを理解する方法に苦労しています。私が既に000005114313000007/0000051143-13-000007(SECが "受付番号"と呼んでいるもの)を持っていれば、それはかなり簡単です。しかし、私は〜45kのエントリを探していて、与えられたCIK ID(私がすでに持っている)のためにこれらを自動的に生成する必要があることは明らかです。

    これを実現する自動化された方法はありますか?

  • 答えて

    0

    ようこそ。

    私は現在、同じサイトを削っているので、これまで行ってきたことを説明します。私が前提にしているのは、あなたが掻き集めようとしている会社のCIK番号を持っているということです。会社のCIKを検索すると、問題の会社で利用可能なすべてのファイルの一覧が表示されます。 (彼らはファイルのTONを持っているので)のは、一例として、アップルを使用してみましょう:

    Link to Apple's Filings

    は、ここからあなたが検索フィルタを設定することができます。あなたがリンクした文書は10-Qでしたので、それを使ってみましょう。 10-Qをフィルタリングすると、すべての10-Qドキュメントのリストが表示されます。フィルタに対応するために、URLが少し変更されていることがわかります。

    PythonとそのWebスクレイピングライブラリを使用してそのURLを取得し、そのページの表のドキュメントのすべてのURLをスクレイプすることができます。これらのリンクごとに、ページから必要なリンクや情報を削り取ることができます。私は個人的にBeautifulSoup4を使用していますが、プログラミング言語としてPythonを選択した場合、lxmlはWebスクレイピングのもう一つの選択肢です。 Pythonを使うことをお勧めします。基本といくつかの中間プログラミング構造を学ぶのはかなり簡単です。

    それ以前は、プロジェクトはあなたのものです。幸い、私はあなたのためにいくつかのリンクを投稿しました。私は、私は、サイトに新たなんだので、2つのリンクを投稿することができので、私はあなたの美しいスープのリンクをあげる:あなたは、Pythonを使用することを選択し、言語に慣れていない場合

    Beautiful Soup Home Page

    を、codecademyのpythonコースをチェックし、lxmlをチェックアウトすることを忘れないでください。なぜなら、一部の人はBeautifulSoupよりも好きだからです(どちらも一緒に使用する人もいるので、それはすべて個人的な好みの問題です)。

    関連する問題