2016-07-18 8 views
1

import.ioエクストラクタからクロールデータ(GUIを使用して手動で入力したURLのリスト)を取得する方法を知りたいと思います。 APIドキュメントは非常に不足しており、私が実際に作成したGETリクエストがクローラを開始し(使用可能なクローラを消費する)、手動で起動したクローラの結果を照会するだけであるかどうかは指定されていません。import.ioからエクストラクタを表示する

また、私が理解しているように、Extractorは何も特殊なコネクタではありませんが、extractor_idをAPIにクエリするためのコネクタIDとして使用すると、コネクタが取得されます存在しない。私は私が私の抽出オフ1で私が持っているURLをリストしたと考えていた

方法がこれです:

https://api.import.io/store/connector/_search? 

_sortDirection=DESC&_default_operator=OR&_mine=true&_apikey=123... 

しかし、私が得る唯一の結果は次のとおりです。

{「取りました」: 2、 "TIMED_OUT":偽、 "ヒット":{ "合計":0、 "ヒット":[]、 "max_score":0}}

それにもかかわらず、より完全な回答を得ることができたとしても、ドキュメントに表示されているサンプルの結果には、import.ioアカウントから取得しようとしているURLを含むリストや要素は含まれていません。

私はあなたが新しいWeb ExtractorのAPIを使用する必要がありますので、レガシーAPIは、任意の非レガシーコネクタは動作しません。このAPIを作成する

+0

ええ、一度に1つずつ電話をかけることができるようにするためには、エクストラクタのリストを取得するのがよいでしょう。これまで私はすべての抽出プログラムを動的に実行する方法を見つけることができませんでした。 – kos

答えて

1

をのpythonを使用しています。残念ながら、これに関するドキュメントはありません。あなたのAPIキーに接続されているコネクタを一覧表示するには、次の呼び出しを見つけることができスヌーピング一部と幸いにも

、:

https://store.import.io/store/extractor/_search?_apikey=YOUR_API_KEY 

ここから、あなたは、各ヒットをチェックし、_typeプロパティが抽出器に設定されていることを確認します。これにより、抽出者に関連付けられたGUIDと、その作成時に選択した名前にアクセスできます。

その後、CSV形式で抽出から最新の実行ダウンロードするには、次のことが可能です。これは、すべてのWeb抽出の統合タブで発見された

https://data.import.io/extractor/{{GUID}}/csv/latest?_apikey=YOUR_API_KEY 

を。そこには他のクエリもあります。

これが役に立ちます。

関連する問題