私は救急車の事故データを分析しています。このデータセットは3年間をカバーし、約250000件のインシデントを持っています。 予備分析は、事件分布が人口分布に関連していることを示しています。 spatstatを使用してポイントプロセスモデルをフィッティングすることは、これに同意します。部分的な残差プロットでは広く合意しています。 しかし、この傾向は、「社会時間」、すなわち、金曜日、土曜日の夜、祝祭日の間、この人口に関連する傾向とは異なると考えられている。予測のためのポイントプロセスモデルの使用
私はデータのサブセットを取り、全体像とどのように違うのかを見たいと思います。データのサブセットに固有のポイントの数が少ないため、強度の違いをどのように考慮することができますか?
また、実際の画像に適合モデルを直接使用する方法はありますか?
プライバシー問題があるためデータを提供することは難しく、データセットのサイズによっては状況をシミュレートするのが難しいです。私は決して統計学者ではないので、ここで少し落ち着いています。
「空間点パターンの方法論とアプリケーションとR」のコピーは非常に便利です。
私は、目視検査によって密度表面のための
250k_pts.ppp <- ppp(the_ambulance_data x and y, the_window)
1.3m_census_pts <- ppp(census_data x and y, the_window)
ベスト帯域幅はbw.scott
ように見えた...これまでのところ、私の方法論を説明する擬似コードをしようとします。これは、点の密度面に合うように使用されました。
the_ambulance_data %>% group_by(day_of_week, hour_of_day) %>%
select(x_coord, y_coord) %>% nest() -> nested_day_hour_pts
:一部の残差をプロット
inc_density <- density(250k_pts.ppp, bw.scott)
pop_density <- density(1.3m_census_pts, bw.scott)
fit0 <- ppm(inc_density ~ 1)
fit_pop <- ppm(inc_density ~ pop_density)
partials <- parres(fit_pop, "pop_density")
は、私は次のことを考えています何
..線形近似との合意は「ぐらつき」の一部の地域で、広く受け入れられることを示しています
これらのリスト項目の1つをとり、pppを作成します。たとえばfri_2300hr_pppです。
fri23.den <- density(fri_2300hr_ppp, bw.scott)
fit_fri23 <- fit(fri_2300hr_ppp ~ pop_density)
このpppまたは密度をより広範なモデルと比較するにはどうすればよいですか?分散、クラスタリングなどの特性テストを行うことができます。fit_pop
とfit_fri23
の部分的な残差を比較できますか?
濃度のポイント数の効果を制御するにはどうすればいいですか?つまり、サブセット内の250,000ポイントと多分8000ポイントの差があります。多分密度表面の分位数を考えていますか?
これは、スタックオーバーフローに適した特定のプログラミングの質問のようではありません。統計的方法について一般的な質問がある場合は、[stats.se]または[datascience.se]または地理的データに固有のものであれば[gis.se]に質問してください。 – MrFlick
私は、OPがいくつかのサンプルデータとこれまでに行ったことを示すいくつかのコード行を追加する必要があるかもしれないと主張していますので、問題を理解し、R/spatstatのプログラミング問題として見ることができます。一方、あなたは正しいかもしれませんし、Cross Validatedはより良く適合します。とにかく、(偽/サブセット)データと適合モデルのより具体的な例が役立ちます。 –