2016-05-06 12 views
0

私は私たちの学校で小規模のデータ分析競技に参加しています。
私たちはFitbitウェアラブルデバイスを使用します。これはコンテストの主催者によって各参加者に貸し出されます。
コンテスト中2ヶ月間、この小型デバイス24/7で歩行と睡眠を行います。

など、参加者の歩数に関するデータを収集できます。いくつかの問題を解決する必要がありますこれらの参加に基づいて、私は問題の目的は、だと思う 分析Fitbitの歩行と睡眠のデータ

、チャートを用いて速度がワークアウトの例のようなデータ

  • は雨の日と参加者の間の関係を示しては、 10 雨のため、多くの参加者が家にいると予想されます。
    いくつかの原因と結果を数値で表示できますか?

    私は現在、pythonライブラリnumpy、ipythonノートブックでpandasを学習しています。
    しかし、私はこれらの問題を解決することについてはまだ考えていません。
    参考になるプロジェクトやサイトをお勧めしますか?この競争に勝つために本当に熱心私。:(
    そして最後に、私の下手な英語のため申し訳ありません。

    ありがとう。

+0

[最小、完全、および検証可能な例](http://stackoverflow.com/help/mcve)を追加できますか? – jezrael

答えて

2

楽しいプロジェクトです。私は一種の類似した何かに取り組んでいます。

ここ

は、あなたがする必要があるものです:。。

  • はfitbitのAPIを学び、fitbit加速度計とジャイロスコープからのデータをストリームあなたは素晴らしい、心拍数データと組み合わせることができれば、あなたが持っているデータのより多くの種類、モーあなたのアルゴリズムは効果的です。このデータはシンプルなcsvファイルに保存できます(50Hzでの加速度/ジャイロデータのストリーミングをお勧めします)。またはセットアップWebサーバーとパンダを使用すると

  • 学ぶscikit方法を学ぶ簡単にアクセス

  • のためにデータベースに保存し、[オプションだが推奨]:あなたはあなたのデータをグラフ化して感触を得ることができるので、matplotlibの学びどのように見えるか

  • データをパンダにロードし、データ上にフィーチャを作成します。特に、50%オーバーラップの1-2秒スライディングウィンドウ解析を使用します。優れた特徴には、最大、最小、標準偏差、二乗平均平方根、二乗和の平方根、および傾き(Accel X、Y、Zの3つすべて)が含まれます。多項式が役立ちます。

  • これは教師付き分類の問題であるため、ラベル付きデータを作成する必要があります。手動で行う(状態1 =雨の日、状態2 =雨以外の日)。私はラベルなしデータを使用してrandom forest

  • テストをお勧めします - cross validation

出来上がりを使用することを忘れないでください、あなたは今、非常に正確なモデルを持っているし、競争に勝ちます。さらに、あなたは本当に素晴らしいPythonや機械学習のことについて学んだことがあります。

すべてのこのようなものがどのように機能するかについての詳細なチュートリアルについては、私は非常にKaggle tutorial projects

BONUSをお勧めします:あなたは新しいレベルにそれを取るしたい場合は、のために、あなたの分類器の上のスムーザーの追加を開始することができますthis talk

BONUS 2:ヒューマンアクティビティ認識で博士号を取得する。

+0

BONUS 2は素敵です:) – jezrael

+0

天気の状態を利用して人の仕事率を予測するのは他の方法ではないはずですか? – ayhan

+0

私はあなたがそれをどちらかの方法で構造化できると思います。私がその方法で答えた理由は、(私にとっては)あなたの分類アルゴリズムの特徴としてフィットビットデータを使用しているということです。ええ、代わりに、すべての気象データを読み込むことができます - 気圧計の読み取り値、最小/最大温度、湿度、すべてのもの。楽しいかもしれません。 –