common-crawl

0熱

1答えて

私はより鮮やかで、今週のコンテストに参加しようとしています。問題は、大規模なHTMLデータセットをアーカイブして取得することであり、それについてはわかりません。私の友人は、私にWebアーカイブと一般的なクロールを使用するように提案しました。 HTMLデータセットをWebアーカイブに変換する方法と、それらのインデックスを作成する方法を私に提案してください。前もって感謝します。

6熱

3答えて

共通のクロールにアクセスするAWS公開データセット

一般的なクロールの公開データセットのサブセットを参照してダウンロードする必要があります。 Thisページには、データがホストされている場所が記載されています。 s3：// aws-publicdatasets/common-crawl/crawl-002 /でホストされている一般的なクロールデータを参照し、ダウンロードするにはどうすればよいですか？

8熱

2答えて

検索エンジンを構築するには？（2013更新）

これは、この質問はここにStackOverflowでaskedされたのは初めてではない - しかし、それはほぼ5年後である - と時間と技術が少し変更されました。私は人々が最近検索エンジンを構築することについて考えているのだろうか？例えば、私はNutchが開発され続けている知っている - しかし、それはまだ利用できる最も堅牢なソリューションですか？他の言語に対応できる代替成熟ソリューションがあり

0熱

2答えて

MRJobは、インライン、ローカル、emr、またはハーフープを実行しているかどうかを確認します

私はMRJobを使用してEMRでbuilding on some old code from a few years back using the commoncrawl datasetです。 self.options.runner == 'emr' これはどちらか働いたことはないように思われなかったり、もはやself.options.runnerがタスクに渡されていない、動作します：コードは