一般的なクロールのwarc.gzファイルの2つのレコードの区切り

一般的なクロールからダウンロードしたwarc.gzファイルを解析したいと思います。私はwarc.gzというニュースのファイルを手動で解析する必要があります。 2つのレコード間の区切り文字は何ですか？一般的なクロールのwarc.gzファイルの2つのレコードの区切り

出典

2017-08-28 Ravi Ranjan

gzippedファイルを手動で解析することはできません。あなたの最良の選択肢は、the indexを使って各レコードのオフセットと長さを調べることです。詳細は、api documentationおよびthe guidesを参照してください。

WARCファイルを手動で解析する場合は、まず.gzファイルを解凍します。

WARC records are separated by two newlines

：

A WARC形式のファイルは、1つのまたは複数のWARC レコードの簡単な連結したものです。レコードは、レコードヘッダーとそれに続くレコード内容ブロックと2つの改行で構成されます。（改行はCRLFは、他のインターネット標準のとおりです。）

出典

2017-08-29 12:27:00

.gzファイルを解凍しても、各レコードを別々に取得する方法はありません。方法はありますか？ –

私が気づいたように、各レコードは2つの改行で区切られています*。あなたがもっと助けを必要とするなら、私はあなたがしようとしていることについてもっと多くの情報が必要です。そして、なぜそれを手動で行う必要がありますか？ –

ありがとうございます。私はそのファイルのrddを作成する必要があります。 sparkのデフォルト区切り文字は、warcにはないものです。したがって、私はファイルが持っているよりも多くのレコードを取得しています。 –

WARCファイルには明確なレコード区切りはありません。レコードは常に '\ r \ n \ r \ n'で終わりますが、これはレコードヘッダーをレコード本体から切り離すためにも使用され、HTML文書のどこでも発生する可能性があります。 WARCレコードの長さは、レコードヘッダーのContent-Lengthによって定義されます。

PySparkで一般的なクロールWARCファイルを処理するには、cc-pysparkを参照してください。

出典

2017-09-11 09:58:17

一般的なクロールのwarc.gzファイルの2つのレコードの区切り

答えて

関連する問題