data-ingestion

0熱

1答えて

カフカからドルイドへの摂取中に次元値でデータをフィルタリングすることは可能ですか？考慮する次元：version、値があるかもしれない：v1、v2、v3私はv2しかロードしません。私はそれがスパーク/ FLINK /カフカStreamsを使用して行うことができます実現し、多分あなたが手の前にデータをフィルタリングする必要がドルイド側からアウトオブボックスソリューション

7熱

3答えて

シンクを設定するelasticsearch apache-flume

これは私がここに初めて来たので、私がうまく投稿しないと申し訳ありません、私の悪い英語を申し訳ありません。私はApache FlumeとElasticsearchシンクを設定しようとしています。すべてが大丈夫です、それはうまく動作しているようですが、エージェントを起動すると2つの警告があります。以下のもの： 2015-11-16 09:11:22,122 (lifecycleSupervisor-

1熱

1答えて

NiFiを使ってHiveにデータをロードする最良の方法は何ですか？

私はNiFiを使い始めました。私は、Hiveにデータをロードするためのユースケースに取り組んでいます。私はCSVファイルを取得し、SplitTextを使用して着信フローファイルを複数のフローファイル（レコードごとに分割レコード）に分割します。次に、ConvertToAvroを使用して、分割されたCSVファイルをAVROファイルに変換します。その後、AVROファイルをHDFS内のディレクトリに配置し

1熱

1答えて

ワトソンディスカバリサービスで摂取するとエラーが発生する

ワトソンディスカバリサービスで7MBのjsonファイルを摂取しようとしています。 WDSツーリングインターフェイスを使用してインジェストすると、インターフェイスは正常に処理されたことを示しますが、ドキュメントは失敗したように見えます。 APIを使用したときに返されたエラー：サーバー上の問題により要求を処理できませんでした」というエラーメッセージが表示されていませんか？ありがとう

0熱

1答えて

Flume：HDFSEventSink - 動的に多重化する方法は？

概要：私は多重化のシナリオを持ち、静的に設定された値ではなく、フィールドの可変値（日付など）に基づいて動的に多重化する方法を知りたいと考えています。詳細：私は入力があり、それはentityIdで区切られています。私が作業しているエンティティを知っているので、典型的なFlumeマルチチャンネル選択で設定できます。 agent.sources.jmsSource.channels = chan-

1熱

1答えて

Gobblin - Facebookから投稿を得る方法

私はしばらくGobblinを調査していましたが、現在Gobblinを使ってFacebookから投稿を得ることが困難です。私はインターネット上で接続例を見つけることができなかったし、それを間違って検索したかもしれない。私はGobblinにrestfbを組み込みたいと思っていますが、GobblinにはRestapIクラスのConnector、Source、Extractorがあり、これらを組み合わせ

1熱

1答えて

複数のテーブルに対して1つのsqoopジョブを同時に使用することができ、同時に実行することができます

私はSqoop Hands-onを使い始めました。私は質問がある、私はデータベースに300のテーブルがあり、それらのテーブルに増分ロードを実行したいと言うことができます。私は、追加モードまたは最後に変更されたインクリメンタルなインポートを行うことができます。しかし、ジョブ内の唯一のものがテーブル名、CDC列、最後の値/更新値であれば、300個のジョブを作成する必要がありますか？誰かが同じ仕事を