2017-08-10 4 views
0

SQL Serverには5分ごとに更新されるPLCデータがあります。 同じ時間間隔でクロウダ分布のHDFSにデータをプッシュする必要があります。 これに使用できるツールはどれですか?クローダのSQL SERVERからHDFSへのほぼリアルタイムのデータ取り込み

+0

PLCとHDFSは何ですか? – ibubi

+2

PLCはプログラマブルロジックコントローラの略です。 HDFSはhadoop分散ファイルシステムです。 –

答えて

0

この作業には、Confluent Kafkaを使用することをお勧めします(https://www.confluent.io/product/connectors/)。

アイデアは以下の通りである:

のSQLServer - > [JDBC-コネクタ] - >カフカ - > [HDFS-コネクタ] - > HDFS

これらのすべてのコネクタがすでに経由で利用可能ですがコンフルエントなウェブサイト。

+0

ありがとう..それを試してください。 – Soz

0

あなたのデータがローカルFSのいくつかのディレクトリに書き込まれていると仮定しています。この作業には、ストリーミングエンジンを使用することができます。 apache-sparkというタグが付いているので、私はあなたにSpark Streamingソリューションを提供します。

ストリーミングコンシューマは、構造化ストリーミングを使用して、データディレクトリを監視します。スパークストリーミングは、設定可能なマイクロバッチ(ストリーム待機時間)でデータを読み取り、処理します。これは、あなたのケースでは5分です。各マイクロバッチのデータを保存用のcloudera hadoopクラスタを使用するテキストファイルとして保存することができます。

これが役立ったかどうか教えてください。乾杯。

+0

:ありがとうございました。私たちはSQL Serverからデータを読み込まなければなりません。データはFSにプッシュされません。この場合、ストリーミング・ヘルプを起動できますか? – Soz

+0

はいjdbcを使用すると、sparkの任意のデータソースから読み取ることができます。 –

0

sqoopという名前のツールをGoogleに送信できます。オープンソースのソフトウェアです。

+0

私はSqoopをバッチ処理のように使いました。しかし、私はSQL Serverからリアルタイムでデータを取り込む必要があります。 – Soz

関連する問題