common-crawl

    0

    1答えて

    私は一般的なクロールからデータをクロールしましたが、それぞれのレコードに対応するURLを探したいと思います。 for record in files: print record['WARC-Target-URI'] これは空のリストを出力します。私は以下のリンク https://dmorgan.info/posts/common-crawl-python/を参照しています。 1つのw

    0

    2答えて

    インターネット上に存在するデジタルオブジェクト識別子(DOI)のデータベースを作成しようとしています。 手動でCommonCrawlインデックスサーバーを手動で検索すると、いくつかの有望な結果が得られました。 しかし、私はプログラム的なソリューションを開発したいと考えています。 これにより、私のプロセスでは、インデックスファイルを読み込み、基になるWARCデータファイルを読み込まなくてもよい場合が

    0

    1答えて

    commoncrawlを分析する必要があります。そのために私はPython 2.7を使用しています。私はいくつかのwarcファイルを見てきました.warc.gzファイルにはいくつかのバイナリデータがあります。私はbs4を使用してHTMLソースを解析する必要があります。しかし、これがテキストデータであることをどのように検出でき、これはバイナリです。 たとえば、バイナリデータを含むURL regest

    0

    1答えて

    一般的なクロールを使用してWebページを取得したいが、紛失している。 www.example.comのwarcファイルを取得したいと考えています。私はこのリンク(http://index.commoncrawl.org/CC-MAIN-2017-34-index?url=https%3A%2F%2Fwww.example.com&output=json)が次のjsonを生成するのを見る。 { "u

    0

    1答えて

    一般的なクロールデータセット(warc.gzファイル)でHTMLコンテンツを解析する必要があります。私はbs4(Beautifulsoup)モジュールを使用することを決定しました。ほとんどの人がそれを提案しています。取得するためのコードスニペットがされて次のテキスト: from bs4 import BeautifulSoup soup = BeautifulSoup(src, "lxml")

    0

    1答えて

    このCrate with Common Crawlの例を使用しようとしています。https://github.com/crate/crate-commoncrawl 例の手順を使用してCrateをセットアップし、テーブルスキーマを作成しました。 自分のシステムで作業しているため、URL:http://localhost:4200/_plugin/crate-adminを使用してCRATEにアクセス

    0

    1答えて

    Hadoopファイル分割と複数のマッパーに関する一般的な質問があります。私はHadoopが新しく、最適なパフォーマンスを得るためのセットアップ方法を手に入れようとしています。私のプロジェクトは現在GZIPされているWARCファイルを処理しています。 現在のInputFileFormatを使用すると、ファイルは1つのマッパーに送信され、分割されません。私はこれが暗号化されたファイルの正しい動作である

    0

    2答えて

    一般的なクロールからダウンロードしたwarc.gzファイルを解析したいと思います。私はwarc.gzというニュースのファイルを手動で解析する必要があります。 2つのレコード間の区切り文字は何ですか?

    1

    2答えて

    Amazon S3からWATアーカイブセグメントのサブセットをダウンロードしたいと考えています。 背景:AWS S3のWARCファイルの場所に関する情報をhttp://index.commoncrawl.org利回り結果の一般的なクロール、インデックスを検索 。例えば、url=www.celebuzz.com/2017-01-04/*&output=jsonを検索する { "urlkey":"co