2017-06-18 13 views
0

私はpandasデータフレームであるYelpデータセットを使用しています。各行にはビジネスに関する情報が含まれ、各列は消費者評価、カテゴリ、属性などの特定の情報を参照します。データフレームの属性列から情報を抽出することに特に関心があります。各行の属性フィールドには複数の要素が含まれ、長さが異なります。私はこれを明確にするためにイメージを付けています。 Image of attributes columnPythonデータフレームの列から文字列の一部を取得します

属性セルから 'RestaurantsPriceRange2:1'という情報を抽出します。 'RestaurantsPriceRange2'の値は各行で異なり、1,2,3または4であることに注意してください。各行をリストに集めようとしましたが、リストの長さは行ごとに異なります。

誰かが属性の列から必要な情報を選択する方法を提案できますか?

答えて

0

属性もコンマで区切られているようです。それぞれの属性を中カッコで区切って中括弧で区切ることもできます(区切りとして使用できるRegExはHow to split by commas that are not within parentheses?を参照し、カッコは中カッコで置き換えてください)。属性を読み込んでそれらをデータフレームの一部にも変換します。この方法で、Restaurant Price Rangeに直接アクセスできます。

関連する問題