パンダのDataFrameはこれに適していますか？

私のシナリオを描こうとしましょう：パンダのDataFrameはこれに適していますか？

私は、与えられたサンプルセットのいくつかのAPIについて分析しようとしています。したがって、最終的に私は次のように考えています：

各行は各サンプルの名前で、各列は各APIの名前です。この表のそれぞれで、私は可変数のペアのキー値を持つことになります（例えば、 'dog'：0.9）。だから、要素数が...それは0からNにすることができますが、通常3以上になることはありません常に2ではありません

..さんは

________________________________________________________________________ 
|row/column | API 1  | API 2  | API 3  | API 4  | 
------------------------------------------------------------------------ 
|sample1 |{'dog':0.9, |{'cat':0.3, |{'dog':0.7, |{'cat':0.2, | 
|   |'animal': 0.8}|'mammal':0.4} |'mammal':0.3} |'animal':0.9}| 
------------------------------------------------------------------------ 
|sample2 |{'sun':0.6, |{'sun':0.7, |{'wind':0.5, |{'sun':0.1, | 
|   |'beach': 0.3} |'water':0.7} |'water':0.2} |'wind':0.3} | 
------------------------------------------------------------------------ 
|sample3 |{'tenis':0.9, |{'court':0.3, |{'court':0.7, |{'ball':0.2, | 
|   |'ball': 0.8} |'player':0.4} |'tennis':0.3} |'court':0.9} | 
________________________________________________________________________

というように簡単な例を入れてみましょう-4タグ。

私はその後、このデータで何をしたいのか、言っ

ある簡単な計算のように：

すべてのAPI
内の発生回数の最大-MiminumスコアのみAPI
タグ

実際にはわかりません。

私の質問は、パンダと一緒にいろいろなことをしています... DataFrameは良いアプローチですか？このデータの配置は大丈夫ですか、変更する必要がありますか？

出典

2016-06-16 AlejandroVK

はい、あなたはindexレベルがsample_idとapi_idを含み、その後、あなたはtagと関連するvalueを含む2つの列を持っているMultiIndexを使用したいと思います。たとえば、.groupby(level='api_id').value.max()を使用して統計情報を簡単に使用できます。

followsこれは見ることができる：

    tag value 
sample_id api_id    
1   1  tag1  1 
2   1  tag2  2 
3   1  tag3  3 
4   2  tag1  1 
5   2  tag2  2 
6   2  tag3  3 
7   2  tag4  1 
8   2  tag5  2 
9   2  tag6  3 
10  3  tag1  1 
11  3  tag2  2 
12  3  tag3  3 
13  3  tag4  1 
14  3  tag5  2 
15  4  tag1  3

出典

2016-06-16 15:50:45 Stefan

こんにちはステファン、感謝リンクのために、私は少し厳しい混乱してる...マルチインデックスを構築するために同じlenghtの配列があるためにrequiresありませんか？あるいはそれらは可変長を持つことができますか？ – AlejandroVK

APIごとにtag：valueの配列が異なることを意味しますか？ 'api_id'は' MultiIndex'の一部であるため、例を参照してください。柔軟にすることができます。 – Stefan

実際、サンプルあたり複数のタグ、つまりapiを持つことができますが、これはまだ適用されますか？ところで、例をありがとう:) – AlejandroVK

パンダのDataFrameはこれに適していますか？

答えて

関連する問題