warc

0熱

1答えて

キバナを使用してデータをインポートする方法について知りたいと思います。実際には、その私のための混乱。私はkobanaを使用してjsonファイルをロードしようとしましたが、インポートしていません。 2番目に、Warcファイルで作業したい場合、JSONファイルに変換してインポートする必要がありますか、それとも他の解決策が必要です。返信をお待ちしています。

1熱

1答えて

Python3でlzma（* .warc.xz）を使ってwarcレコードを圧縮するには？

私はwarcレコードのリストを持っています。 output_file = warc.open("my_file.warc.gz", 'wb') そして、このようなレコードを書き込む：を今、私はこのように私のレコードを格納する* .warc.gzを使用しています header = warc.WARCHeader({ "WARC-Type": "response", "WAR

0熱

1答えて

大きなHTMLデータセットをアーカイブして取得するにはどうすればよいですか？

私はより鮮やかで、今週のコンテストに参加しようとしています。問題は、大規模なHTMLデータセットをアーカイブして取得することであり、それについてはわかりません。私の友人は、私にWebアーカイブと一般的なクロールを使用するように提案しました。 HTMLデータセットをWebアーカイブに変換する方法と、それらのインデックスを作成する方法を私に提案してください。前もって感謝します。

0熱

2答えて

Pythonでwarcファイルを読む

warcファイルを読んでいますが、this pageに基づいてフォローコードを書いていますが、何も印刷されていませんでした。私は、次のコマンドを書いたとき >>import warc >>f = warc.open("01.warc.gz") >>for record in f: print record['WARC-Target-URI'], record['Content-Len

0熱

1答えて

WARCファイルにNutch 2.3のデータをダンプする方法は？

Nutch 2.3からWARCファイルにデータをダンプする必要があります。しかし、私は必要なモジュールを見つけることができませんでした。 Nutch 1.xにはこの機能がありました。私はそれを行う適切な方法を知りたいです。

0熱

1答えて

wgetの--warcファイル--recursive、

は、私は次のようにwarcアーカイブを作成するためにwgetを実行して、個々のファイルの書き込み防止： $ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/ $ l -h /tmp/epfl.warc.gz -rw-r--r-- 1 david wheel 657K Sep 2 15:18 /tmp/ep

2熱

2答えて

Nutchのデータを複数のwarcファイルにダンプする

Nutch 1.12を使用してウェブサイトのリストをクロールしました。私は、複数のWARCファイル、一つに集められたデータをダンプすることができ ./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment しかし、どのように： ./bin/nutch dump -segment crawl/segments/ -o outputDir na

0熱

1答えて

一般的なクロールからクロールされたwarcファイルからURLを見つけることができません

私は一般的なクロールからデータをクロールしましたが、それぞれのレコードに対応するURLを探したいと思います。 for record in files: print record['WARC-Target-URI'] これは空のリストを出力します。私は以下のリンク https://dmorgan.info/posts/common-crawl-python/を参照しています。 1つのw