一般的なクロールからダウンロードしたwarc.gzファイルを解析したいと思います。私はwarc.gzというニュースのファイルを手動で解析する必要があります。 2つのレコード間の区切り文字は何ですか?一般的なクロールのwarc.gzファイルの2つのレコードの区切り
0
A
答えて
0
gzippedファイルを手動で解析することはできません。あなたの最良の選択肢は、the indexを使って各レコードのオフセットと長さを調べることです。詳細は、api documentationおよびthe guidesを参照してください。
WARCファイルを手動で解析する場合は、まず.gzファイルを解凍します。
WARC records are separated by two newlines
:A WARC形式のファイルは、1つのまたは複数のWARC レコードの簡単な連結したものです。レコードは、レコードヘッダーとそれに続くレコード 内容ブロックと2つの改行で構成されます。 (改行はCRLFは、他の インターネット標準のとおりです。)
0
WARCファイルには明確なレコード区切りはありません。レコードは常に '\ r \ n \ r \ n'で終わりますが、これはレコードヘッダーをレコード本体から切り離すためにも使用され、HTML文書のどこでも発生する可能性があります。 WARCレコードの長さは、レコードヘッダーのContent-Length
によって定義されます。
PySparkで一般的なクロールWARCファイルを処理するには、cc-pysparkを参照してください。
関連する問題
- 1. 一般的なクロールからRDDにダウンロードされたwarc.gzファイルを変換する
- 2. 一般的なクロール - WARCファイルの取得
- 3. Pythonの2つの.txtファイルの一般的な行
- 4. フィルタ一般リスト(コンマ区切り値)
- 5. 一連のwarc.gzファイルのマッピングEMR
- 6. Crate一般的なクロールの例が機能しない
- 7. 一般的なコンテキストメニューアプリケーションを切り抜く
- 8. 2つの区切り文字を含む一括挿入?
- 9. Vb.net 2つのコンマ区切りリスト
- 10. 一般的なファクトリとng-repeatリフレッシュを持つ2つのコントローラ
- 11. 一般的なメソッドとプロパティを持つ2つのクラス
- 12. 一般的な列のPythonで2つのCSVファイルをマージする
- 13. 一般的な2種類のバインド
- 14. 2セルの一般的な比較
- 15. データセットを2つの区切りファイルにまとめる
- 16. 2つのメソッド式の一般的な違い
- 17. 、つまり、一般的に
- 18. CのWindowsフォームの一般的な切り取り、コピー、貼り付けショートカットキー
- 19. .dwgファイルの一般的なサイズは?
- 20. 別のgridviewのレコードを1つの一般的なgridviewに追加します
- 21. タブ区切りファイルを読み込んで一般的なマップを返すジェネリックプロセスを作成する方法
- 22. 1つの一般的なコンテキストメニュー
- 23. マルチフォーマット区切りファイルのインポート
- 24. Web Api 2複数のパラメータを持つ一般的なパススルーメソッド
- 25. コンテキストScalaで一般的な2つのパラメータ
- 26. 2つの一般的な関数List <>
- 27. 区切り文字を含むファイルのfgetsとsscanfレコード
- 28. 区切り文字で区切って一意のファイルを書き込む
- 29. codeigniterアクティブなレコードまたは一般的なmysqlのヘルプ
- 30. 2つのポリゴンの間に区切り線を見つける
.gzファイルを解凍しても、各レコードを別々に取得する方法はありません。方法はありますか? –
私が気づいたように、各レコードは2つの改行で区切られています*。あなたがもっと助けを必要とするなら、私はあなたがしようとしていることについてもっと多くの情報が必要です。そして、なぜそれを手動で行う必要がありますか? –
ありがとうございます。私はそのファイルのrddを作成する必要があります。 sparkのデフォルト区切り文字は、warcにはないものです。したがって、私はファイルが持っているよりも多くのレコードを取得しています。 –