common-crawl

    0

    1答えて

    私はより鮮やかで、今週のコンテストに参加しようとしています。問題は、大規模なHTMLデータセットをアーカイブして取得することであり、それについてはわかりません。私の友人は、私にWebアーカイブと一般的なクロールを使用するように提案しました。 HTMLデータセットをWebアーカイブに変換する方法と、それらのインデックスを作成する方法を私に提案してください。前もって感謝します。

    6

    3答えて

    一般的なクロールの公開データセットのサブセットを参照してダウンロードする必要があります。 Thisページには、データがホストされている場所が記載されています。 s3:// aws-publicdatasets/common-crawl/crawl-002 /でホストされている一般的なクロールデータを参照し、ダウンロードするにはどうすればよいですか?

    8

    2答えて

    これは、この質問はここにStackOverflowでaskedされたのは初めてではない - しかし、それはほぼ5年後である - と時間と技術が少し変更されました。私は人々が最近検索エンジンを構築することについて考えているのだろうか? 例えば、私はNutchが開発され続けている知っている - しかし、それはまだ利用できる最も堅牢なソリューションですか?他の言語に対応できる代替成熟ソリューションがあり

    0

    2答えて

    私はMRJobを使用してEMRでbuilding on some old code from a few years back using the commoncrawl datasetです。 self.options.runner == 'emr' これはどちらか働いたことはないように思われなかったり、もはやself.options.runnerがタスクに渡されていない、動作します:コードは