2016-08-29 3 views
2

私はNaive Bayesベースの実装に取り​​組んでおり、モデルチューニングに関してはSpark 2.0を使用していますが、モデル、私はスパーク2のモデルパーシステンスのサポートをよく知っているが、私の懸念は、特に保存されたモデルのデータフォルダ内のナイーブなベイズのための保存されたモデルの内容にあり、依存するpiクラスの数に、我々は他の&モデルのデータフォルダの並べ替えコンテンツに実際のデータに依存し、データサイズが大きくなり、スパークナイーブベイズモデル永続性:理解してください&

ので、ナイーブベイズに設定された機能のクラス&数の数にまで依存シータ(マトリックス)であるを持っています

誰でも助けてもらえますか? hが正確に格納しているものを理解しているので、私は基本的に、これらのデータを私の生産アーキテクチャーにどこに置くかについて私の決定をするために同じことが必要です。

私はこれらの上でたくさん見つけることを試みたが、ドン、tは彼らが正確に理解..彼らは次元C(あるクラスの事前分布の

  • @paramのパイログとして言及されているスパークJavaのドキュメントで次元D(機能の数)

によってC(クラス数)であるクラス条件付き確率のクラスの数)

  • @paramシータログが、私は正確にこれらの値が何であるかを理解することはできませんよそれがなぜ必要なのか、誰かが助けてくれると助けになる理解

    質問はまた、彼らはそう前に、この1.6で、これら二つの属性は、ナイーブベイズモデルを含む、パイ&シータ

  • +0

    あなたはこれに適した情報源を見つけることができましたか? – woodhead92

    答えて

    0

    せずに作業をされるだろう、バージョン2.0で追加されているという事実に関連します。 Naive Bayesは、特徴ベクトルX(あなたの入力ベクトル)を与えられたクラスCを予測するためのものです。これを行うには、ベイズ定理に依存します。いくつかの数学的な魔法を使うと、Bayes Theoremを分類のために最適化することができます。残っているものは次のとおりです。

    P(C | X)= P(x1 | C)* ... * P(xn | C)

    またはさらなる最適化:

    P(C | X)=ログ(P(C))+ログ(P(X1 | C))+ ... +ログ(P(XN | C))サイドノートでは

    :記号「=」は、より近似のいくつかの並べ替えのようなものだ、この場合は正確ではありません。

    ので、モデルはこれらの確率を知っている必要があります。 P(C)はpiベクトルのようです。 P(xn | C)はシータ行列のように見える。シータマトリックスは無限に成長しません。サイズは、入力変数xnの数と可能な値に依存します。

    関連する問題