プロパティアドレスと各プロパティの複数の属性を含む文字列で構成されるPythonリストがあります。リスト対vsクラスvs DataFrameのPythonデータフォーマット
'Date of Sale', 'January 1, 2017', 'Phone Number', '111-344-2343', 'Color', 'Brown', 'Garage Size', '2', 'Date Listed', 'September 23, 2016', 'Loan From', 'Example Mortgage Services', 'Street Address', '751 Example Drive', 'City', 'Chicago', 'Number of Windows', 'Attorney', 'Shaping LLP', 'Township', 'Dundee', 'Zip Code', '99999', 'List Price', '$83,301.87', 'Bid Amount', '$110,199.00', 'Miscellaneous', 'Long Driveway', 'Date of Sale', ...
これは1つの「エントリ」です。リストは、フィールドが空のまま残っていると完全にスキップされても、残りのプロパティ(「Date of Sale」で始まります)によって同じパターンで続きます。たとえば、入札が行われなかった場合、「入札金額」に金額ではなく「その他」が直接表示されます。
目的は、情報を簡単に解析できるようにすることです。たとえば、入札していないすべてのプロパティを一覧表示したいとします。
主な問題は、データフォーマットが使用するものです(class
、リスト、辞書、またはデータフレーム):
class Property(object):
def __init__(self,dateOfSale,phoneNumber...):
self.dateOfSale = 'dateOfSale'
self.phoneNumber = 'phoneNumber'
...
が、私は複数のプロパティに関する情報を取得するためにこれを利用することになるかわかりませんよ。
OR
1つのlist
項目に各プロパティに関するすべての情報を結合します。私はあなたがこの情報をどのように見ているかわかりません。
OR
それは簡単にいずれかの時に反復思えませんが、アドレスによってキー、および他のすべての情報価値をdictionary
を使用してください。
OR
パンダdataframe
を活用します。より多くの研究をする必要がありますが、「スプレッドシート」データはその形式でうまく機能するようです。
あなたの例のデータは、ように見えますエラーがあります: '' Number of Windows ''キーに関連する値はありません。それは、あなたが試みたパースを破る可能性があります。 – Blckknght
あなたのお返事ありがとうございます@Blckknght私はより良いコメントを追加する必要があります。たとえキーがあっても、エントリの中にはそれらに関連付けられた値が含まれていないものがあります。いずれのフィールドにも答えがない場合(この場合は「windows」)、リストの次の項目は単に次のキーになります。最終的には、リスト内のいずれかのキーの値を持たないすべてのアドレスを見つけることが目標です。 – Coby