2016-12-20 13 views
4

のは、私は多くの場合、複数のIDを持っている、金融証券のデータフレームを持っているとしましょう:Pandas DataFrameでどの列をインデックスとして設定するかはどのように決定されますか?

enter image description here

私はインデックスとして設定するには、1つの列のみを選択するべきでしょうか?すべての潜在的な識別子をインデックスとして設定する必要がありますか?すべてのテキストデータをインデックスとして設定し、すべての数値データを列として残す必要がありますか?ベストプラクティスは何ですか?

+4

私の意見では、一般的に、デフォルトは単調なインデックス( '0,1,2,3、...')ですが、正確に何が必要なのかによって異なります。また、一意のインデックスが重複としてより優れています。 – jezrael

+2

重複を削除して、デフォルトの単調インデックス – MMF

+1

を使用します。これは、達成しようとしていることに完全に依存しています。 –

答えて

0

これは、パンダよりもデータベース設計に関するものです。

決定は、データフレーム(リレーショナルデータベースのテーブル)とその列のビジネス上の意味に基づいて行う必要があります。たとえば、「内部セキュリティID」を使用してこの種のデータをビジネスで識別する場合は、インデックスとして設定する必要があります。

ただし、わからない場合は、デフォルトの整数インデックスを使用してください。

関連する問題