2016-04-12 13 views
0

私はWikipedia Datasetを使ってmapreduceを実行しています。使用しているデータセットはhereからです(Wikipedia Wiki名前空間)。 BZ2ファイルのデータは基本的に私は、他のすべての詳細が改正の1セットが一列になるように1行に各リビジョンを変換したいこのブタの列に行を変換します

よう
REVISION 724 234015 Wikipedia:Adding_Wikipedia_articles_to_Nupedia 2001-03-28T22:33:49Z ip:Larry_Sanger ip:Larry_Sanger 
CATEGORY 
IMAGE 
MAIN Larry_Sanger LMS Adding_Nupedia_articles_to_Wikipedia Jimbo_Wales Nupedia Wikipedia 
TALK 
USER 
USER_TALK 
OTHER 
EXTERNAL http://www.nupedia.com/write.shtml http://www.nupedia.com/policy.shtml http://www.nupedia.com/newsystem/signup.phtml http://www.nupedia.com/newsystem/writearticle.phtml?instr=on http://www.nupedia.com/editors.phtml 
TEMPLATE 
COMMENT * 
MINOR 0 
TEXTDATA 685 

REVISION 724 431753 Wikipedia:Adding_Wikipedia_articles_to_Nupedia 2002-05-19T17:36:09Z Eclecticology 372 
CATEGORY 
IMAGE 
MAIN Larry_Sanger LMS LMS Adding_Nupedia_articles_to_Wikipedia Jimbo_Wales Nupedia Wikipedia Mores Adding_Wikipedia_articles_to_Nupedia/Help 
TALK 
USER 
USER_TALK 
OTHER 
EXTERNAL http://www.nupedia.com/write.shtml http://www.nupedia.com/policy.shtml http://chalkboard.nupedia.com http://www.nupedia.com/newsystem/signup.phtml http://www.nupedia.com/newsystem/writearticle.phtml?instr=on http://www.nupedia.com/editors.phtml 
TEMPLATE 
COMMENT "mores" linked; -/Talk 
MINOR 1 
TEXTDATA 738 

されます。私はthisに似た何かを試しましたが、うまくいきませんでした。誰かがそれについてどうやって行くのか教えてくれますか?

答えて

0

最も簡単な(おそらく最もエレガントではない)データの前処理方法です。あなたのリンクに基づいて、我々は実行可能な約18GBを話している。 とにかく、データをスキーマから分離する必要があります(データにはフィールド名も含まれているようです)。

このタイプのデータ用に独自のローダーを作成するより優れたソリューションです。 ここでは、サンプルプロジェクトとチュートリアルの例を紹介します。http://help.mortardata.com/technologies/pig/write_your_own

関連する問題