common-crawl

0熱

1答えて

一般的なクロールからクロールされたwarcファイルからURLを見つけることができません

私は一般的なクロールからデータをクロールしましたが、それぞれのレコードに対応するURLを探したいと思います。 for record in files: print record['WARC-Target-URI'] これは空のリストを出力します。私は以下のリンク https://dmorgan.info/posts/common-crawl-python/を参照しています。 1つのw

0熱

2答えて

CommonCrawlを照会してDigital Object Identifier（DOI）データベースにデータを入力するJava API

インターネット上に存在するデジタルオブジェクト識別子（DOI）のデータベースを作成しようとしています。手動でCommonCrawlインデックスサーバーを手動で検索すると、いくつかの有望な結果が得られました。しかし、私はプログラム的なソリューションを開発したいと考えています。これにより、私のプロセスでは、インデックスファイルを読み込み、基になるWARCデータファイルを読み込まなくてもよい場合が

0熱

1答えて

Pythonを使用してcommoncrawlでバイナリデータを処理する方法

commoncrawlを分析する必要があります。そのために私はPython 2.7を使用しています。私はいくつかのwarcファイルを見てきました.warc.gzファイルにはいくつかのバイナリデータがあります。私はbs4を使用してHTMLソースを解析する必要があります。しかし、これがテキストデータであることをどのように検出でき、これはバイナリです。たとえば、バイナリデータを含むURL regest

0熱

1答えて

一般的なクロール - WARCファイルの取得

一般的なクロールを使用してWebページを取得したいが、紛失している。 www.example.comのwarcファイルを取得したいと考えています。私はこのリンク（http://index.commoncrawl.org/CC-MAIN-2017-34-index?url=https%3A%2F%2Fwww.example.com&output=json）が次のjsonを生成するのを見る。 { "u

0熱

1答えて

一般的なクロールデータではBeautifullスープがテキスト抽出に時間がかかります

一般的なクロールデータセット（warc.gzファイル）でHTMLコンテンツを解析する必要があります。私はbs4（Beautifulsoup）モジュールを使用することを決定しました。ほとんどの人がそれを提案しています。取得するためのコードスニペットがされて次のテキスト： from bs4 import BeautifulSoup soup = BeautifulSoup(src, "lxml")

0熱

1答えて

Crate一般的なクロールの例が機能しない

このCrate with Common Crawlの例を使用しようとしています。https://github.com/crate/crate-commoncrawl 例の手順を使用してCrateをセットアップし、テーブルスキーマを作成しました。自分のシステムで作業しているため、URL：http://localhost:4200/_plugin/crate-adminを使用してCRATEにアクセス

0熱

1答えて

HadoopプロセスのWARCファイル

Hadoopファイル分割と複数のマッパーに関する一般的な質問があります。私はHadoopが新しく、最適なパフォーマンスを得るためのセットアップ方法を手に入れようとしています。私のプロジェクトは現在GZIPされているWARCファイルを処理しています。現在のInputFileFormatを使用すると、ファイルは1つのマッパーに送信され、分割されません。私はこれが暗号化されたファイルの正しい動作である

0熱

2答えて

一般的なクロールのwarc.gzファイルの2つのレコードの区切り

一般的なクロールからダウンロードしたwarc.gzファイルを解析したいと思います。私はwarc.gzというニュースのファイルを手動で解析する必要があります。 2つのレコード間の区切り文字は何ですか？

1熱

2答えて

一般的なクロールインデックスサーバーからWATアーカイブのサブセットのオフセットと長さを取得

Amazon S3からWATアーカイブセグメントのサブセットをダウンロードしたいと考えています。背景：AWS S3のWARCファイルの場所に関する情報をhttp://index.commoncrawl.org利回り結果の一般的なクロール、インデックスを検索。例えば、url=www.celebuzz.com/2017-01-04/*&output=jsonを検索する { "urlkey":"co