私のシナリオを描こうとしましょう:パンダのDataFrameはこれに適していますか?
私は、与えられたサンプルセットのいくつかのAPIについて分析しようとしています。したがって、最終的に私は次のように考えています:
各行は各サンプルの名前で、各列は各APIの名前です。この表のそれぞれで、私は可変数のペアのキー値を持つことになります(例えば、 'dog':0.9)。だから、要素数が...それは0からNにすることができますが、通常3以上になることはありません常に2ではありません
..さんは
________________________________________________________________________
|row/column | API 1 | API 2 | API 3 | API 4 |
------------------------------------------------------------------------
|sample1 |{'dog':0.9, |{'cat':0.3, |{'dog':0.7, |{'cat':0.2, |
| |'animal': 0.8}|'mammal':0.4} |'mammal':0.3} |'animal':0.9}|
------------------------------------------------------------------------
|sample2 |{'sun':0.6, |{'sun':0.7, |{'wind':0.5, |{'sun':0.1, |
| |'beach': 0.3} |'water':0.7} |'water':0.2} |'wind':0.3} |
------------------------------------------------------------------------
|sample3 |{'tenis':0.9, |{'court':0.3, |{'court':0.7, |{'ball':0.2, |
| |'ball': 0.8} |'player':0.4} |'tennis':0.3} |'court':0.9} |
________________________________________________________________________
というように簡単な例を入れてみましょう-4タグ。
私はその後、このデータで何をしたいのか、言っある簡単な計算のように:
- すべてのAPI
- 内の発生回数の最大-MiminumスコアのみAPI に登場
- タグ
実際にはわかりません。
私の質問は、パンダと一緒にいろいろなことをしています... DataFrameは良いアプローチですか?このデータの配置は大丈夫ですか、変更する必要がありますか?
こんにちはステファン、感謝リンクのために、私は少し厳しい混乱してる...マルチインデックスを構築するために同じlenghtの配列があるためにrequiresありませんか?あるいはそれらは可変長を持つことができますか? – AlejandroVK
APIごとにtag:valueの配列が異なることを意味しますか? 'api_id'は' MultiIndex'の一部であるため、例を参照してください。柔軟にすることができます。 – Stefan
実際、サンプルあたり複数のタグ、つまりapiを持つことができますが、これはまだ適用されますか?ところで、例をありがとう:) – AlejandroVK