2017-06-26 133 views
0

私はKNIMEが新しく、時系列データの外挿にARIMAを使用しようとしています。しかし、私はARIMA Predictorにその作業をさせませんでした。KNIMEのARIMAノードを使用する方法は?

入力データは、次のフォーマット

year,cv_diff 
2011,-4799.099999999977 
2012,60653.5 
2013,64547.5 
2014,60420.79999999993 

のものであり、私は2015年と2016年のために例えば値を予測したいと思います。

私はyear to dateを変換するために、String to Date/Timeノードを使用しています。 ARIMA学習者では、cv_diffフィールドのみを選択できます。そして、これが最初の質問です:私が予測しようとしている年の列または変数を設定する必要があるというオプションの「単変量時系列を含む列」に対しては?しかし、私の場合、私は1つのオプション - cv_diff変数しか持っていません。その後、学習者の出力をARIMA Predictorの入力と接続して実行します。 'ERROR ARIMA Predictor 2:3実行に失敗しました:定義された時系列の列が見つかりませんでした。ノードを新たに設定してください。

Learner and Predictorにどのような変数を設定する必要がありますか?それはtimeseries変数ではないでしょうか?そして、Arimaノードはどのようにして時系列として使用する列を理解するのですか?

答えて

1

時系列変数としてcv_diffを設定し、入力をプレディクタにも接続する必要があります。 (だから少しのデータポイントと同様に、学習が動作しませんパラメータのためにあまりにも大きな値を設定しようとしません。)ここで

は一例です:最後に

Predictor configuration with visualization

+0

@Gabbor Bakosありがとうございました!ちょうどあなたのコメントに気づいた!はい...大きなパラメータは、そのような小さなデータセットでは機能しません。予測線の周囲の灰色の領域について教えてください。次の予測を得る確率があるのはどこですか? – Deil

+0

はい、灰色の領域は、実際のデータポイントの確率が「.95」である場所です。 (その信頼区間は、視覚化およびビューでも調整できます)。視覚化では、複数のモデルを表示できます(KNIME ARIMA学習者ではありません)。 –

+0

もう一度ありがとうございます。 – Deil

0

、私は理解しましたそれを出す。 ARIMA学習者ノードの[単変量時系列を含む列]オプションは、特に時系列分析に不慣れな方にとっては少し混乱しているようです。私は、ARIMAは、同じ時間間隔で収集された予測を行う変数を扱い、どのような間隔の間隔であっても問題ないので、任意の時系列フィールドを明示的に提供すべきではありません。

私が見つけたものを「単変量時系列」の良いexplanationは、私は学習者および予測の両方のためにcv_diff変数を選択する必要がありますし、任意のタイムスタンプまたはいずれかを提供しない、

The term "univariate time series" refers to a time series that consists of single (scalar) observations recorded sequentially over equal time increments. Some examples are monthly CO2 concentrations and southern oscillations to predict el nino effects. Although a univariate time series data set is usually given as a single column of numbers, time is in fact an implicit variable in the time series. If the data are equi-spaced, the time variable, or index, does not need to be explicitly given. The time variable may sometimes be explicitly used for plotting the series. However, it is not used in the time series model itself.

ので意味します他の時間関連の列。

もう1つは分かりませんでした。私はいくつかの一連のデータを訓練し、次に予測が必要な別のシリーズを提供する必要があります。これは、新しいデータのみを提供する必要があり、シリーズの概念がまったくない場合、他の機械学習ワークフローとは少し異なります。

関連する問題