私はscala/flink/sparkを初めて使っていて、いくつか質問があります。 現在、flinkを使用しているscalaが使用されています。正しいフレームワークを使用していますか?
データフローの一般的な考え方は次のようになります。
CSVファイル - > FLINK - >弾> FLINK(プロセスデータ) - >のMongoDB - >タブロー
セミコロンあるログファイルの膨大な数があります分離された。 私のデータベースとしてelasticsearchにそれらのファイルを書きたいと思います。 (これは既に動作しています)
さまざまな種類の解析が必要になりました(一貫性レポート/生産性レポート)。 これらのレポートでは、さまざまな種類の列が必要です。
アイデアは、flinkでelasticsearchから基本データをインポートし、データを編集してmongodbに保存して、データの視覚化をtableauで行うことができます。
編集は平日のような追加の列を追加することからなる、と私はFLINKは、データソースなどの弾性を使用する可能性を与えるものではありませんことを発見した研究のビットの後
// +-------+-----+-----+
// | status|date |time |
// +-------+-----+-----+
// | start | 1.1 |7:00 |
// | run_a | 1.1 |7:20 |
// | run_b | 1.1 |7:50 |
// +-------+-----+-----+
// +-------+-------+-------+----+
// | status|s_time |e_time |day |
// +-------+-------+-------+----|
// | start | 7:00 |7:20 | MON|
// | run_a | 7:20 |7:50 | MON|
// | run_b | 7:50 |nextVal| MON|
// +-------+-------+-------+----+
/異なるステータスの終了時刻を開始します。 githubプロジェクトhttps://github.com/mnubo/flink-elasticsearch-source-connectorがありますが、1年以上更新されていません。これは、私が同じクエリでkibanaに入るヒット数が少ないので、正しく動作していないようです。 選択肢はありますか?これはデフォルトではサポートされないのはなぜですか?
これらのテーブル変換は、フリンクで実行できますか?それはフリンクでそれらを行うのが理にかなっていますか? (私はそれらを達成するのに本当に苦労しているので)
私はこのプロジェクトのために適切なフレームワークを使用していますか?それはより多くの機能/コミュニティプロジェクトを提供するので私は火花に切り替える必要がありますか?まず
スパークは良い選択です。火花はより安定しており、図書館では豊富にあります。 –