data-science

-1熱

1答えて

私は機械学習/データ科学を初めて利用しています。ここで私が達成しようとしていているもの：過去のウェブサイトの訪問者からのデータ次を考える：サイト上 1.ジャーニー：URLが訪問しているサイトに残さ 2.任意のコメントをご注文の意図を予測現在サイトを訪問しているユーザー（これまでの旅行マップを使用しています）： 1.尤度の％で次にアクセスする可能性のあるURLのリストを指定します。 2.現在のユ

1熱

1答えて

scikit-learn：サポートベクターマシン。精度や精度は？

私は、使用するコードが精度または精度、またはその両方を計算するかどうかを調べようとしています。私は統計上の背景が少ししかないので（別の言語で）、そのトピックを扱っているWikipediaの記事]（https://en.wikipedia.org/wiki/Accuracy_and_precision）を実際に理解していません。具体的には、私は、次のPythonのコードを使用します。 from s

-1熱

2答えて

クラスタリングScikit - ビジネスデータを機械学習入力データに変換する

私はデータ科学の世界に慣れていませんし、MLの成果に関する概念を理解しようとしています。私はscikit - clusteringの例を使い始めました。 scikitライブラリを使用することはどこにでも書かれています。しかし、すべての例は、数値データの準備ができていると仮定しています。ここで、データ科学者がビジネスデータを機械学習データに変換する方法について説明します。ちょうど例を与えるために、

-1熱

1答えて

トレーニング、検証およびテストデータセットの組み合わせ

トレーニングおよび検証データセットに基づいてモデルを訓練することは可能ですか。両方を組み合わせて新しいモデルを作成することは、その結合されたモデルから、テストデータセットのすべてのデータを分類するために使用します。

0熱

1答えて

パンダ複数のカテゴリのためのプロットの棒グラフは

私はこのデータフレームを持って Countries IsVertical 例：私は2列を持つ棒グラフを作成したい USA FALSE USA FALSE Poland FALSE Italy TRUE Italy TRUE 各国（Trueの場合は1、Falseの場合はIsVerticalから）、国が表示される正規化回数をy軸にする必要があります。私はこのような何かをしようと試み

2熱

1答えて

スパークMLib決定木：機能別ラベルの確率？

私は例えば、私の意思決定ツリーを表示した後、私はテーブルを持って、私のlabelsの合計確率を表示するために管理することができます： Total Predictions : 65% impressions 30% clicks 5% conversions しかし、私の問題は、確率を見つけるために（またはカウントする）であるfeaturesによっては（ノードによっ

0熱

1答えて

XML文字列をデータフレームに変換するR

Rをデータフレームに使用してXMLノードを読み込む際に問題が発生しています。私はXMLデータを読むのが初めてです。）は、いくつかの観測を除外し、いくつかの行を区切るされていません（ require(dplyr) require(rvest) url <- "http://rstudio-pubs-static.s3.amazonaws.com/177866_49f6965521224dd88

1熱

1答えて

ValueError：サンプル数が一致しない配列が見つかりました：[4 16149]

こんにちは、私は一般的にscikitの学習とデータ科学に慣れていません。私は上記の問題に取り組んでいるうちに、私のベクタライザから最も有益な機能を取得しようとしています。私のコード（ギャングさんのコメント@反映するように編集）： values = dataset.data word_vectorizer = CountVectorizer(analyzer='word', stop_words=

1熱

3答えて

パンダのデータフレームから特定の日付を削除する最速の方法

大きなデータフレームで作業しています。特定の日付を削除する効率的な方法を見つけるのに苦労しています。私がの測定値を特定の日付のから削除しようとしていることに注意してください。 df.ix['2016-04-22'] をし、その日からすべての行を引く：パンダは、あなたが呼び出すことができ、この偉大な機能を有しています。しかし、すべての行を'2016-04-22 'から削除したい場合はどうすれば