warc

    0

    1答えて

    キバナを使用してデータをインポートする方法について知りたいと思います。実際には、その私のための混乱。私はkobanaを使用してjsonファイルをロードしようとしましたが、インポートしていません。 2番目に、Warcファイルで作業したい場合、JSONファイルに変換してインポートする必要がありますか、それとも他の解決策が必要です。 返信をお待ちしています。

    1

    1答えて

    私はwarcレコードのリストを持っています。 output_file = warc.open("my_file.warc.gz", 'wb') そして、このようなレコードを書き込む: を今、私はこのように私のレコードを格納する* .warc.gzを使用しています header = warc.WARCHeader({ "WARC-Type": "response", "WAR

    0

    1答えて

    私はより鮮やかで、今週のコンテストに参加しようとしています。問題は、大規模なHTMLデータセットをアーカイブして取得することであり、それについてはわかりません。私の友人は、私にWebアーカイブと一般的なクロールを使用するように提案しました。 HTMLデータセットをWebアーカイブに変換する方法と、それらのインデックスを作成する方法を私に提案してください。前もって感謝します。

    0

    2答えて

    warcファイルを読んでいますが、this pageに基づいてフォローコードを書いていますが、何も印刷されていませんでした。私は、次のコマンドを書いたとき >>import warc >>f = warc.open("01.warc.gz") >>for record in f: print record['WARC-Target-URI'], record['Content-Len

    0

    1答えて

    Nutch 2.3からWARCファイルにデータをダンプする必要があります。しかし、私は必要なモジュールを見つけることができませんでした。 Nutch 1.xにはこの機能がありました。私はそれを行う適切な方法を知りたいです。

    0

    1答えて

    は、私は次のようにwarcアーカイブを作成するためにwgetを実行して、個々のファイルの書き込み防止: $ wget --warc-file=/tmp/epfl --recursive --level=1 http://www.epfl.ch/ $ l -h /tmp/epfl.warc.gz -rw-r--r-- 1 david wheel 657K Sep 2 15:18 /tmp/ep

    2

    2答えて

    Nutch 1.12を使用してウェブサイトのリストをクロールしました。私は、複数のWARCファイル、一つに集められたデータをダンプすることができ ./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment しかし、どのように: ./bin/nutch dump -segment crawl/segments/ -o outputDir na

    0

    1答えて

    私は一般的なクロールからデータをクロールしましたが、それぞれのレコードに対応するURLを探したいと思います。 for record in files: print record['WARC-Target-URI'] これは空のリストを出力します。私は以下のリンク https://dmorgan.info/posts/common-crawl-python/を参照しています。 1つのw