私は州/地域についての静的メタデータを使用するsparkプロジェクトを持っています。現在のところ、データは次のようにハードコードされています。Apache Sparkで静的データを読み込む最良の方法
object RegionUtil {
val regionNames = Map("US-AL" -> "ALABAMA",
"US-AK" -> "ALASKA",
"US-AZ" -> "ARIZONA",
"US-AR" -> "ARKANSAS",
"US-CA" -> "CALIFORNIA",
"US-CO" -> "COLORADO",
// ... etc
"US-WY" -> "WYOMING")
}
次に、リージョンマッピングはRegionUtilのマップから単純に検索されます。これは単なる例であり、アプリケーションが依存している多くの同様の静的マッピングがあるためです。
しかし、このメタデータの一部は時折(めったに)更新されず、MySQLデータベースで既に管理されています。私がしたいことは、最初にスパークが起動したときにそのデータをロードしてから、その時点からそのデータのキャッシュされたコピーを(各スレーブノードが独自のコピーを維持しながら)理想的にはメタデータにアクセスする必要があるときにルックアップすることです。
どのように達成できるか知っていますか?
有望です。 –