data-analysis

0熱

1答えて

約50000回の失敗回数データを持つ大きなデータに指数関数的なSRGMを適用しようとしています。これは永遠に実行されており、データポイントが多すぎるため、オンラインツールでもこのデータがクラッシュしています。この問題を解決し、MLE（最尤推定）を得るためにExponential（Goel-Okumoto）モデルをどのように適合させることができますか？

0熱

1答えて

タイムスタンプが範囲内にあるかどうかをテストする最も効果的な方法

タイムスタンプが大きく成長するデータストアを考慮して日付間の範囲内にあるかどうかをテストする最も効果的な方法は何ですか？セットアップは基本的に私はテーブルに持っています。密度が1分当たりのセンサデータの場合は（A）であり、変化が監視されるテーブルの場合は1つだけです。表は、1分ごとにすべてのセンサーデータが保存され、絶え間なく成長する表です。データはこの密度で格納され、圧縮できないという要件

-1熱

1答えて

データの結果をPythonの出力ファイルに書き込む方法

データポイントの近接性に関する地質座標を分析して検索するためにこのコードを書いています。私は非常に多くのデータポイントを持っていたので、PyCharmの出力は過負荷になり、ナンセンスの束を私に与えました。それ以来、私は真実/偽の結果を自分のコンピュータ上の別々の文書に書き込んでこの問題を解決しようと努めました。このコードのポイントは、file1の座標とfile2のすべての要素の近接性を分析するこ

2熱

1答えて

matplotlibのデフォルトのhisttypeを設定していますか？

histtypeのmatplotlibのhist()機能のデフォルト引数を設定する方法はありますか？デフォルトの振る舞いはバーチャートタイプのヒストグラムを作ることです。私は基本的にはとなります。は見たいと思っています。重要なオーバーラップを持つ複数のディストリビューションを比較するのは恐ろしいことです。何らかの関連性がある場合は、達成したいデフォルトの動作はhisttype='step'です。

1熱

1答えて

xmlデータを含むpandasデータフレーム列を正規化された列に変換しますか？

私はをpandasに、その列の1つはXML文字列です。私がしたいのは、正規化された形式の列名を持つxmlノードごとに1つの列を作成することです。例えば、 id xmlcolumn 1 <main attr1='abc' attr2='xyz'><item><prop1>text1</prop1><prop2>text2</prop2></item></main> 2 <ma

0熱

1答えて

R 1000+ .CSVファイルのマージと周波数解析

私は何千もの.CSVファイルをRで操作するためのさらに冒険的なアプローチに戻っています。私は10個のファイルをすべてインポートしてマージし、 .CSVなどがありますが、結果は分析的に操作するにはあまりにも扱いにくいです。私が必要なのは、 10個のファイルが1つのファイルにマージされます（ファイルの例については以下を参照してください）。列は周波数,チャンネルA（以降はチャンネルB）です。単にF、、

-1熱

1答えて

データセットで最も意味のある変数を見つける

変数（ベクトル、すべて同じ長さのベクトルN）があるとしましょう：X1、X2、X3、X4、X5、X6 ... Xn。および時系列Y（同じ長さN）は、いくつかの変数Xに依存します。 XのどれがYと最も相関しているかを決定するアルゴリズムが必要です。すなわち、最も意味のない変数を破棄し、影響力が最も大きい変数をYに設定する必要があります。例：のは、我々は、特定のITサイトのWebトラフィックに影響を

0熱

2答えて

Apache Spark SQLとMongoDBの違いは？

私はRDBMS PostgresSQLでしか経験していませんが、Apache SparkとMongoDBに新しいです。私は次の混乱を抱いています。 1）Apache Spark SQLとMongoDBの違いは何ですか？ 2）SparkSQL、MongoDB、または組み合わせた方法を使用するには、どのような場所/シナリオ/ドメインが必要ですか？ 3）Apache Sparkは、mondoDB、ca

1熱

1答えて

SVC.coef_とサンプル数が異なる

のデータをダウンロードしました。 news = datasets.fetch_20newsgroups(subset='all', categories=['alt.atheism', 'sci.space']) vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(newsgroups.data) y = news.targ

-2熱

1答えて

私のメインフォルダに格納されている5つの異なるフォルダから複数の.matファイルを読み取るにはどうすればいいですか？

5つの異なるフォルダ（それぞれ1.matファイル）を含むフォルダが1つあり、MATLABのすべてのファイルを読み込み、どうすればいいですか？各.matファイルには30000x6の行列が含まれており、各ファイルから1つの列ベクトルを格納して別の1つの行列に保存する必要もあります。 PCAにはこの行列が必要です。何か助けていただければ幸いです。