0
Hadoopでの作業のためにwikipediaからデータをロードしたいとします。私はいくつかのリンクを見つけました:http://www.kiwix.org/wiki/Main_Page#Wikipedia_files、https://archive.org/details/enwiki-20160113。しかし、私はそれがどのフォーマットになり、それをどのように扱うかはわかりません。ですから、疑問は誰でもウィキペディアを1つ以上のtxtファイルにダウンロードすることができるかどうかを知っていますか?wikiを1つ以上のファイルでダウンロードする