次のサンプルのような大きなデータフレーム(df)があります。データセットに多数のデータ入力エラーがあり、これらを削除する必要があります。サンプルデータでは、すべてのNSW州は2.すべてのVIC州は私が見えるように、最終的なテーブルを必要とする3複数の基準に基づいてDFからデータを削除します
| Suburb | State | Postcode |
| ------ | ----- | -------- |
| FLEMINGTON | NSW | 2140 |
| FLEMINGTON | NSW | 2144 |
| FLEMINGTON | NSW | 3996 |
| FLEMINGTON | VIC | 2996 |
| FLEMINGTON | VIC | 3021 |
| FLEMINGTON | VIC | 3031 |
で始まる郵便番号を持っている必要があります...
| Suburb | State | Postcode |
| ------ | ----- | -------- |
| FLEMINGTON | NSW | 2140 |
| FLEMINGTON | NSW | 2144 |
| FLEMINGTON | VIC | 3021 |
| FLEMINGTON | VIC | 3031 |
で始まる郵便番号を持っている必要があります
以下の解決策は近いですが、特定の数値で始まる整数をフィルタリングする方法と、時間的な圧力の下にある方法はわかりません。
Extracting rows from df based on multiple conditions in R
任意の助けいただければ幸いです。
夢のように動作します。 :) –
また、 'setDT(df)[、N:= .N、。(substr(Postcode、1,1)、状態)] [.SD [N == max(N)] 、状態] [、N:= NULL] [] ' – akrun