私はsyncsort、informaticaなどのような多くのツールを見ていて、EBCDICメインフレームファイルをASCIIに変換するのに十分な効率があります。 当社は規模が小さく、ツールに投資したくないので、私はEBCDICメインフレームファイルをASCIIに変換するための挑戦をしています。 上流はメインフレームで、データ全体をhdfsに移行していますが、hdfsはメインフレームを処理するのに十分ではないため、 Spark/java rodeルーチンでこれらのメインフレームEBCDICファイルに変換してください。 ファイルをエクスポートすると、ファイルはASCIIに変換されますが、パック10進数であるため、COMP/COMP3は変換されません。 私は、これらのメインフレームのEBCDICを部分的に変換したファイルをASCIIに変換するロジックを書く必要があります。これにより、我々はさらにhadoopでの処理を行うことができます。 このサイトではiamが新しいので、サンプルのebcdicファイルを追加することもできません。あなたに以下のようにアスキーと迷惑メールを含むサンプルファイルの内容を検討するよう依頼してください 以下は、給与項目の後にある迷惑メール、Deptフィールド、COMPデータタイプを持っています..下はemp.txtファイルですEBCDICからCOMPを含むASCII形式
101ganesh10000a?
102RAMESH 20000は€
103NAGESH 40000€
以下JRecordはASCIIにEBCDICのバイナリファイルを変換するために呼び出され、あなたが火花で使用できるJavaでライブラリがありempcopybook
01 EMPLOYEE-DETAILS.
05 EMP-ID PIC 9(03).
05 EMP-NAME PIC X(10).
05 EMP-SAL PIC 9(05).
05 DEPT PIC 9(3) COMP-3.