機械学習の初心者です。私はいくつかのデータを扱うためにpandas/tensorflowを使用しようとしています。 私はデータを持っているとき、私は知っている:マシンラーニングデータパンダによる前処理
+----+------+
| ID | asset|
+----+------+
| A | 1 |
| B | 2 |
| C | 3 |
| D | 4 |
+----+------+
私はちょうどtensorflowを使用して[[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1]]
に転送そして、リスト[1,2,3,4]
としてCOL「資産」を得ることができます。
しかし、私はこのようになり、データがある場合:
+----+------+
| ID | asset|
+----+------+
| A | 1 |
| A | 2 |
| A | 3 |
| B | 1 |
+----+------+
そして、このようになり、別のテーブル:
+----+------+
| ID | debt |
+----+------+
| D | 1 |
| D | 2 |
| D | 3 |
| A | 1 |
+----+------+
言うことですが、私は3つの異なったタイプがあり、顧客Aを持っています3種類の債務を有する資産と顧客DのクライアントDは最初のテーブルにも存在しないことに注意してください。
最初の質問は、これらのテーブルを組み合わせて、資産/債務と一致するクライアントを見つける方法です。私はそれらのテーブルに参加するだけですか? (パンダではpd.merge()
) このようにして、クライアントDは資産に対してヌル値を持ちます。それとも、すべてのテーブルに存在するクライアントを選ぶだけですか?私はどうすればいいのですか?
第2の質問は、テーブルAを[[1,1,1], [1,0,0]]
にどのように転送できますか?
私は説明が意味があると思います。私が間違ったことを言ったら、私を訂正してください。あなたが欠落しているデータまたはでサンプルを削除したい場合は
(あなたのデータを前処理することへの答えは本当にあなたの機械学習の問題に依存し、あなたが望む方法:長い質問:(
もっと具体的にできるのであれば、私は第2の質問を理解できませんでしたか?ありがとうございます –
はい、テーブルAから、クライアントAは資産タイプ1,2,3を持ち、クライアントBはタイプ1を持つことがわかります。したがって、それらは '[[1,1,1]、[1、 0,0]] '。 – Davvvvad
データはすべて 'csv'形式なので、テーブルAは1つのcsvファイル、テーブルBはもう1つのテーブルとなります。 – Davvvvad