data-analysis

    0

    1答えて

    私はDataFrame dffを取得しました。その形状は5アイテムと4日間の略です。私はEWM ewmmを作成し、EW移動平均を得ました。 相関と共分散については、5×5の形状の行列が予想通りですが、結果は5×4×4の形になります。 どうすればいいですか? In[59]: dff Out[59]: 0 1 2 3 0 1 2 3 4 1 4 3 2 1 2 3 1 4 1 3

    0

    1答えて

    csvファイルに75のeコマース顧客アカウントデータのデータがあります。 また、別のファイルにトランザクションレコードがあります。ここで、口座番号は主キーです。すべてのアカウントの平均トランザクション数は500です。 今、私はこのデータを処理し、プロモーションオファーを提供することについて何らかの決定をしたいと思います。データ量が膨大なので、私はSparkSQLに行くことにしました。 しかし、この

    0

    1答えて

    Bluemix Watson IOTのjsonでBosch XDK 110のセンサーデータを取得する手順について、ステップバイステップの手順に従ってきました。さて、問題は、通常のjsonファイルのようにセンサのjsonデータを取得し、データ解析に使用することです。 事前にアドバイスをいただきありがとうございます。 ダニエル

    -8

    2答えて

    Rの集計データからヒストグラムを作成するにはどうすればよいですか? 私はこれを試みた: dataset <- c(4,17,12,6) hist(dataset) はしかし、これは私が希望 "0-19"、 "60〜99" ブレイクなどせずにデータ を示しました。正しい区切りと名前でこのヒストグラムを作成する方法を知っている。ありがとう。

    0

    1答えて

    ある変数(カテゴリ変数と数値変数)に欠損値があるデータセットがあります。例として、私は2つのカテゴリ、 "地域(今日)"と "地域(1日)"に分けられた数値を持つ変数 "エリア"を持っています。データ列が「新しいコーナー」に分類されている場合、「エリア(-1日)」に値はありません。したがって、削除や削除などの通常の欠損値処理はここでは機能しません。変数がもともと数値であるカテゴリとして、 "are

    0

    1答えて

    データ解析ラボでは、データセットから予測するための最良のモデルを作成する必要があります。 私の理解から、対話項(二次項)を予測項として線形項と共に含む回帰モデルは、線形項のみを使用する対応するモデルよりも一般的です。 リニア用語を使用するのは、両方を使うよりも優れていますか? 私の印象は、個々の用語があまり関連していない場合、関連する用語を追加するとデータが乱雑になります。これは本当ですか?私はそ

    0

    1答えて

    scipy.cluster.hierarchyモジュール関数に関連してfastclusterパッケージを使用して凝集クラスタークラスタリング(AHC) Python 3にあり、私はcut_tree()機能の困惑している動作を見つけました。 私は問題なしでデータをクラスタ化し、を使用してmethod=wardを使用してZを取得します。次に、一定の数のクラスター(例えば、33)を得るために樹状図ツリー

    0

    1答えて

    Pkeparkを使用してSpark DataFrameで新しい列を作成しようとしています。これは、ブール値が交互になるグループに基づいて自動インクリメント(またはID)を表します。 df.show() +-----+------------+-------------+ |id |par_id |is_on | +-----+------------+-------------+ |4

    0

    1答えて

    私はいくつかの属性/プロパティが固定されたモデルを持っています(約15の独立した属性)。 同じモデルには、私にとって最も興味深い別の属性があります。私はその属性の特定の価値を最大にしたい。 自分のデータに基づいて、固定属性値が最も興味深い属性にどのような影響を与えるのかを知りたいと思います。私はこれが統計上の問題だと思いますが、わかりません。 実際の生活の例は、銀行支店、郵便番号、雇用、給与、クレ

    0

    1答えて

    私のデータはvehicle_ID、xとyの座標(場所)、車両の速度、走行時間で構成されています。そして、どの車が同じ道路を利用しているのか知りたいですか? これは、ID 1と1台の車両と私のデータのサンプルですが、私は を分析するために、700000の車両IDを持っているので、基本的に私たちは別の道であるかを把握することができますし、どのように我々はseprateできる方法についての洞察を必要とし