2016-09-29 6 views
0

私は、コンテキスト広告用の1億回のインプレッションでXGBoostを使用してCTR予測モデルを構築しようとしています。これを達成するために、HDFSですべてのインプレッションデータを利用できるので、XGboostをハーフープにします。分散モデルトレーニングのためにhadoopクラスタでどのようにxgboostを実行できますか?

誰かがパイソンのための同じ作業チュートリアルを引用できますか?

答えて

0

はそれを行うには多くの方法があります。

  1. 場合には、いくつかの下位レベル論理グループを持っているいくつかの項目部門のCTRを言うと、あなたは、あなたがマップに行くことができるの部門のためのローカライズされたモデルを作りたい場合タイプの設定を減らす。単一の部門に属するすべてのデータが単一のYARNコンテナに収まることを確認し、そのデータでモデルを構築できます。 NLineInputFormatは、このマップをマップベースのプロセスよりも処理させる巧妙なトリックであり、大幅なスピードアップが可能です。場合にはあなたがここで説明したようにも試してAWSを与え、その後、同様にあなたのインフラストラクチャを決定する過程にある場合

  2. あなたは、より参照してくださいhttp://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html

  3. ためXGBoostのスパークバージョンを使用して、分散機械学習を行うことができます。そのhadoopしかし実際に擬似的に分散した機械学習:

関連する問題