MySqlには、約24000000個のレコードを含む単一のテーブルがあります。このデータを複数の列ファミリを持つMapR DBのテーブルにインポートする方法が必要です。最初はデータをインポートするツールとしてSqoopを選択しましたが、後でSqoopは複数の列ファミリのインポートをまだサポートしていないため、直接Sqoopを使用してデータをインポートすることはできません。 MySqlデータベースのSqoopを使用してMapR FSにデータを入力しました。 MapR FSから3列ファミリのMapR DBテーブルにこのデータをインポートする選択肢は何ですか? それは、一括インポートのためのようだ、私は2つの選択肢があります。MySql DBからMapR DB/HBaseにデータをインポートするオプション
- ImportTSVツールを:これはおそらく、TSV形式であるために、ソース・データが必要です。しかし、私がMapR FSでSqoopを使ってMySqlからインポートしたデータは、CSV形式のようです。このアプローチの標準的な解決策は何ですか?
- MapR FSのデータをHFileに変換してMapR DBにロードするカスタムマップReduceプログラムを作成します。
データをロードするための唯一の2つの選択肢であることを確認したかっただけです。このような要件がどのシステムでも非常に基本的な要件であることを考えると、これは少し限定的なようです。 カスタムマップリデュースが道案内である場合、サンプルまたは作業サンプルが本当に役に立ちます。
スパークについての知識はありますか?直接インポートするか、またはおそらくいくつかの一時的なhdfsストレージを使用してインポートしますか?私はOracleからHdfsにデータを複製するプロジェクトに取り組んでおり、初期スナップショット(sqoopを使用してOracleからダンプされたhdfs上のAvroファイル)からHFilesを生成する作業スパークジョブを持っています。 – MaxNevermind
あなたの主な問題は、hfilesを生成する必要があることです。実用的な解決策を見つけようとしました。 – MaxNevermind
私はまだスパークに取り組んでいません。だから、今のところ私にとって最良の方法ではないかもしれません。しかし、私は間違いなくこれを念頭に置いています。私がmysqlデータからHBase/MapR DBにデータを移したいのであれば、カスタムマップリダクションジョブは唯一のソリューションですか? – koder