data-science

0熱

1答えて

Unbalanced factor of KMeansを読んだ後、私はこれがどのように機能するかを理解しようとしています。つまり、私の例では、要因の価値が低いほど、KMeansのクラスタリングの品質が向上し、クラスタのバランスがより良いことがわかります。しかし、この要素の裸の数学的解釈は何ですか？これは分かっている量なのでしょうか？ここで私の例は以下のとおりです。 C1 = 10 C2 = 1

0熱

1答えて

writeLinesがテキストを返さない

私はコーパスにある400以上の文書のテキストコンテンツ全体を表示します。私は機能writeLinesを使用しましたが、それは文書に含まれる実際のテキストを返さないためには、代わりにこれを返します。リスト（一覧（コンテンツ= cで（「」、「」）、メタ=リスト（著者=文字（0）、atetimestamp =リスト（秒= 33.0082728862762、最小= 22、時間= 12、月曜日= 5、月=

0熱

1答えて

複数の列

私はパンダに新たなんだ、と次のコードスニペットで行わ正確な機能模倣、パンダを使用してテーブルを準備する必要があります： with open(r'D:/DataScience/ml-100k/u.item') as f: temp='' for line in f: fields = line.rstrip('\n').split('|') movieId

0熱

1答えて

最小限の画像データで分類器を設計する

私は組織画像で3クラスの分類器を訓練したいが、合計で約50のラベル画像しか持たない。私は画像からパッチを取り、それらの上で訓練することはできないので、私はこの問題に対処する別の方法を探しています。誰もがこのアプローチを提案できますか？前もって感謝します。

0熱

2答えて

Pandasの行からデータを取得

教授の指示： 1. World Atlasデータの大陸別リストを使用してcountries.csvファイルをpandas DataFrameにロードし、このデータセットを国として指定します。 2. Gapminderで入手可能なデータを使用して、1人あたりの収入（GDP/capita、PPP $ inflation-adjusted）をpandas DataFrameとしてロードし、このデータセッ

1熱

1答えて

画像またはpdfからの曲線フィット

私はこのような画像の束をIGBT characteristics、pdfファイルからコピーしました。私はデータを抽出し、いくつかのカーブフィッティングを探しています。画像IGBT Vce vs Ic @ Tvj three curve's data .csv filesから数値データを抽出するために手動でデジタイザをエンゲージしてみました。画像に3つの曲線があり、各曲線は温度Tvjに依存していま

0熱

1答えて

NLP文からの辞書単語を抽出する

私はStandford NLPを使用して、特定の文のPOSを識別しました。文から適切な単語（辞書で定義された単語）のみを抽出する必要があります。は、例えばの場合：文がある場合は、「私はフライト6AWDRにニューヨークに行ってきました」私は両方の単語「飛行」と「6AWDRは」としてマークされ、スタンフォードNLPを使用 PartOfSpeechAnnotation.classによる "NNP"

0熱

1答えて

Xgboostクロス検証モデルアクセス

訓練を受けたxgboostモデルには、xgboost.cvから直接アクセスする方法はありますか？または、手動で折り畳みをループして、この場合にフィットを実行する必要がありますか？ xgb.cv(param, dtrain, num_round, nfold = 5, seed = 0, obj = logregobj, feval=evalerror)

3熱

2答えて

パンダ：データフレーム

の他のすべての列に列を比較私は結果がすべての文字列カテゴリ値です特徴のシリーズのためにテストされている新しい科目を持ってシナリオを持っています。テストが完了したら、私はすべての被験者のマスターデータセットに新しいデータセットを比較し、与えられたスレッシュホールド（例えば90％）の類似点（マッチ）を探している必要があります。したがって、新しいデータセットの新しいサブジェクトのそれぞれをマスターデー