data-analysis

1熱

1答えて

私は、Spark Learningの例をいくつか取り上げ、Lightning Fast Data Analysisを使って自分の開発を追加しています。基本的な変換と動作を見るためにこのクラスを作成しました。ここで /** * Find errors in a log file */ package com.oreilly.learningsparkexamples.mini.java;

0熱

1答えて

PythonでAkaike Information Criteria（AIC）を手で計算する

私が知る限り、PythonにはAICパッケージはありません。 AIC：したがって、私はWikiに次式よ（私はクラスタリングのK-手段を使用しています）私のデータセット内のクラスターの最適な数を見つけるために、手でそれを計算しようとしています - = 2K以下2LN（最尤）は私の現在のコードです： range_n_clusters = range(2, 10) for n_clusters i

1熱

1答えて

パンダの既存のデータフレームに新しい行を追加するときにエラーが発生する

こんにちは私は以下のデータフレームを持っています。 df3=pd.DataFrame(columns=["Devices","months"]) 私は、印刷（データ） Devices months 1 Powerbank Feb month 私は私のDF3私はエラーを取得していますこのデータ行を追加していループ行から行の値を取得しています。 df3.loc[len(df3)]=da

0熱

1答えて

相互情報pythonの重要度

私は21の変数と75のデータポイント/行のデータセットを持っています。私は変数の各ペア間の相互情報を調べようとしており、私は統計ではかなり初心者です。私はsklearn.metricsでmutual_info_score関数を使用しました。これは0より大きい数値を返します。mutual_info_scoreの値のどの値が依存性を反映しているかはどのように知るのですか？たとえば、1以上、または2以上

0熱

1答えて

時間ベースの形状が視覚化を変える

3人の子供がいるとします。私は過去50年間の体重のサンプリングをしています（例えば、毎分まで） - 体重を表している視覚化を棒の長さとして再生したい場合： 10ポンド。同じ長さの3行があります。kid1の体重が100ポンドになった場合。 line1の長さは例えば100になり、2行の残りの部分はまだ10になります（まだ同じ重みを持っています）。私は視覚化を再生したいと考えています。それを処理する