2016-08-16 14 views
3

私は約6百万小文のデータセットを持っています。私は、各センテンスをGoogleへのクエリとして使用してこれらのセンテンスを拡張し、検索結果から各センテンスを展開しようとしていました。Googleカスタム検索APIの制限事項とその代替方法

次に、GCS APIに制限があることがわかりました.GUI APIでは1日100件以上のクエリを発行できません(実際はちょっとしたことです)。有料版は非常に高額です。

検索中に何か電話番号http://www.faroo.com/hp/api/api.html#ratelimitが見つかりましたが、1Mクエリー/月の制限があり、作成したいクエリーの数があれば、これでも6ヶ月かかるでしょう。 クロール検索結果(これがTOSに違反していても)は、GoogleがCaptchaを使用したり、クローラのリクエスト率を検知して自分のIPをブロックしたりするため、機能しません。

私はあなたの入力を本当にありがとうでしょうか?私の必要条件を満たす他の情報源を知っていますか?

答えて

1

検索結果をクロールして、CAPTCHAサービスを使用することは、予算内で実行する唯一の方法です。プロキシ経由で複数のIPを使用できる場合は、可能な限りCAPTCHAを回避するようにクロールを制限できるため、利点です。

私は、Googleのクロールに使用する

サービス:

+0

しかし、その後、あなたはへのドキュメントのデータを、構造化、インデックスと順位のすべての前処理を行う必要があります指定されたクエリ? – KillBill

+0

"予算上" - 私は本当にこれにお金を費やすことはできません。だから、これを行う自由な方法がないように思われる? – KillBill

+0

大量のGoogle検索を行う無料の方法があった場合は、それを行うのに役立つ膨大な有料サービスはありません。あなたはあなた自身のセットアップとCAPTCHAサービスを使ってそれを海賊版にするか、誰かに支払うことができます。 –

関連する問題