私は、日付、時刻、部署名、国名などの一部がDate
、その他がcategorical Data
である大きな日付セットを持っています。グラフとグラフのデータと文字列の扱い
graphlab.linear_regression.create
メソッドを呼び出すと、このデータがグラフラボでどのように処理されるのですか。このデータを前処理して数値に変換するか、グラフラブに直接渡す必要がありますか。
私は、日付、時刻、部署名、国名などの一部がDate
、その他がcategorical Data
である大きな日付セットを持っています。グラフとグラフのデータと文字列の扱い
graphlab.linear_regression.create
メソッドを呼び出すと、このデータがグラフラボでどのように処理されるのですか。このデータを前処理して数値に変換するか、グラフラブに直接渡す必要がありますか。
Graphlab
は、ほとんどの場合、表形式とグラフ形式のデータセットを計算するために使用され、高い数字はscalability
とperformance
です。 graphlab.linear_regression.create
では、graphlab
は、データの種類を理解し、その結果を最適化するためlinear regression
の最も適切な方法を与えることの作り付けの機能を持っています。例えば、対象の数値データのためとの両方を備えています、ほとんどの時間は、graphlab
は、線形回帰のNewtons Method
をとります。同様に、データセットに応じて、必要性を理解し、それに応じてメソッドを提供します。
前処理については、graphlab
は学習の前に正しく解析する必要がある学習にはSFrame
しかかかりません。 SFrame
を作成中に、未処理およびエラー作成データが常に反映され、エラーがスローされます。したがって、学習を進めるには、きれいなデータが必要です。 SFrame
がデータを受け取り、また、あなたがしたいことを学ぶためのあなたの選択したターゲットと機能の場合は、行ってもいいですが、pre-processing
とcleaning data
は常に推奨されます。また、常に学習アルゴリズムの前にfeature engineering
を実行し、学習の前にデータ型を再定義することは常に正確さのために推奨されます。
データはGraphlab
に扱われる方法についてのあなたのポイントについて、私はそれが依存して、と言うでしょう!一部のデータセットは表形式であり、それに応じて処理され、グラフ構造で処理されるデータセットもあります。 regression tree
とgraphlab
以外のライブラリにかかり、かなりの時間とリソースをdecision tree
コンセプトに従い、あるboosted classifiers
に来るときGraphlabは非常によく実行されます。私にとって
、推奨エンジンを作成しながら、私はノードとエッジのデータセットを持っていたし、非常によくしても、ツリー構造化データ、graphlab
を実行するために、boosted tree classifier
18との反復があまりにも非常にスケーラブルな時間に完璧に働いたと私は言わなければならないところgraphlab
は非常に好調。この回答が役に立ったら嬉しいです。
ことをしている間、あなたが直面しているすべてのエラー? – Dark
@Dark私はどのようにグラフラブがデータを処理するのか理解しようとしていますか?文字列と日付データをカテゴリ値に変換しますか? –