-1
私はjson形式の大きなデータセットを持っています。このデータセットから、最も分散を捕捉する重要な属性を抽出します。これらの属性を抽出して、これらの属性をハッシュキーとして、データセット上に検索エンジンを構築したいと考えています。jsonデータでどのように機能選択を行うことができますか?
ここで主に質問されているのは、jsonデータの機能選択です。
私はjson形式の大きなデータセットを持っています。このデータセットから、最も分散を捕捉する重要な属性を抽出します。これらの属性を抽出して、これらの属性をハッシュキーとして、データセット上に検索エンジンを構築したいと考えています。jsonデータでどのように機能選択を行うことができますか?
ここで主に質問されているのは、jsonデータの機能選択です。
pandas.read_json()機能を持つpandas DataFrameオブジェクトにデータを読み込むことができます。このDataFrameオブジェクトを使用して、データの洞察を得ることができます。たとえば:あなたは、属性の相関関係に興味を持っている場合は
data = pandas.load_json(json_file)
data.head() # Displays the top five rows
data.info() # Displays description of the data
それとも、各数値属性のヒストグラムをプロットするために、このデータフレームにmatplotlibのを使用することができます
import matplotlib.pyplot as plt
data.hist(bins=50, figsize=(20,15))
、あなたは(pandas.scatter_matrixを使用することができます) 関数。
タスクに最も適した属性を手動で選択する必要があります。このツールを使用すると、データを理解して洞察を得るのに役立ちます。