2017-08-02 5 views
-1

私はjson形式の大きなデータセットを持っています。このデータセットから、最も分散を捕捉する重要な属性を抽出します。これらの属性を抽出して、これらの属性をハッシュキーとして、データセット上に検索エンジンを構築したいと考えています。jsonデータでどのように機能選択を行うことができますか?

ここで主に質問されているのは、jsonデータの機能選択です。

答えて

0

pandas.read_json()機能を持つpandas DataFrameオブジェクトにデータを読み込むことができます。このDataFrameオブジェクトを使用して、データの洞察を得ることができます。たとえば:あなたは、属性の相関関係に興味を持っている場合は

data = pandas.load_json(json_file) 
data.head() # Displays the top five rows 
data.info() # Displays description of the data 

それとも、各数値属性のヒストグラムをプロットするために、このデータフレームにmatplotlibのを使用することができます

import matplotlib.pyplot as plt 
data.hist(bins=50, figsize=(20,15)) 

、あなたは(pandas.scatter_matrixを使用することができます) 関数。

タスクに最も適した属性を手動で選択する必要があります。このツールを使用すると、データを理解して洞察を得るのに役立ちます。

関連する問題