2012-03-06 2 views
2

36k行のデータを持つGoogle精錬プロジェクトがあります。私はフリースタンダードURLからjsonデータを取り出す別の列を追加したいと思います。私は小さなデータセットで作業できるようになりましたが、このプロジェクトで実行した場合、処理に数時間かかりましたが、ほとんどの結果は空白でした。私はデータでいくつかの結果を得た。データが取得される行の量やURLからデータを取得するためのより良い方法を制限する方法はありますか?Google大規模なデータセットのためにfreebaseからデータを絞り込み、取得してURLが正しくないカラムを作成する

ありがとうございました!

答えて

2

Freebaseからデータを追加する場合は、「URLを取得して列を追加する」ではなく、「Freebaseから列を追加する」を使用する方がよいでしょう。

ファセットは、最も強力なGoogleの絞り込み機能の1つで、さまざまな種類のコントロールに使用できます。この場合、ファセットを使用してデータのサブセットを選択し、そのサブセットのフェッチのみを行い(その後、別のサブセットで繰り返す)ことができます。

Refchesの次のバージョンでは、このような問題をデバッグするのに役立つURLフェッチの結果に関するエラー報告が含まれますが、リモートサイトのすべての制限を徹底していることを確認してください。 1秒あたりのリクエスト数など

関連する問題