分散モデルトレーニングのためにhadoopクラスタでどのようにxgboostを実行できますか？

私は、コンテキスト広告用の1億回のインプレッションでXGBoostを使用してCTR予測モデルを構築しようとしています。これを達成するために、HDFSですべてのインプレッションデータを利用できるので、XGboostをハーフープにします。分散モデルトレーニングのためにhadoopクラスタでどのようにxgboostを実行できますか？

誰かがパイソンのための同じ作業チュートリアルを引用できますか？

はそれを行うには多くの方法があります。

場合には、いくつかの下位レベル論理グループを持っているいくつかの項目部門のCTRを言うと、あなたは、あなたがマップに行くことができるの部門のためのローカライズされたモデルを作りたい場合タイプの設定を減らす。単一の部門に属するすべてのデータが単一のYARNコンテナに収まることを確認し、そのデータでモデルを構築できます。 NLineInputFormatは、このマップをマップベースのプロセスよりも処理させる巧妙なトリックであり、大幅なスピードアップが可能です。場合にはあなたがここで説明したようにも試してAWSを与え、その後、同様にあなたのインフラストラクチャを決定する過程にある場合
あなたは、より参照してくださいhttp://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html
ためXGBoostのスパークバージョンを使用して、分散機械学習を行うことができます。そのhadoopしかし実際に擬似的に分散した機械学習：

2016-09-29 12:11:12 abhiieor

答えて