2016-12-30 6 views
-1

メインフレームからのファイルを処理する必要があります。ファイルにはいくつかの非ラテン文字があります。私はいくつかの無効な文字のためにこの非ラテン文字を処理しなければなりません。メインフレームはEBCDIC形式のデータをエンコードするので、検証するにはASCIIに変換する必要があります。ASCIIへのEBCDICが正常に動作しない

EBCDICからASCIIへの変換にはthisコードを使用しました。しかし、サンプル入力用にプログラムを実行すると、Hello there!の代わりにHello there]が得られます。 また、EBCDICtableとの入力を確認しました。

また、thisを使用してルックアップテーブルを生成しました。しかし、同じ結果。

  • 何か間違っていますか?またはルックアップテーブルが間違っていますか?
  • ASCIIに変換せずに無効な文字を検証する方法はありますか?

サンプルコードは

#include <stdio.h> 

static const unsigned char e2a[256] = { 
      0, 1, 2, 3,156, 9,134,127,151,141,142, 11, 12, 13, 14, 15, 
     16, 17, 18, 19,157,133, 8,135, 24, 25,146,143, 28, 29, 30, 31, 
     128,129,130,131,132, 10, 23, 27,136,137,138,139,140, 5, 6, 7, 
     144,145, 22,147,148,149,150, 4,152,153,154,155, 20, 21,158, 26, 
     32,160,161,162,163,164,165,166,167,168, 91, 46, 60, 40, 43, 33, 
     38,169,170,171,172,173,174,175,176,177, 93, 36, 42, 41, 59, 94, 
     45, 47,178,179,180,181,182,183,184,185,124, 44, 37, 95, 62, 63, 
     186,187,188,189,190,191,192,193,194, 96, 58, 35, 64, 39, 61, 34, 
     195, 97, 98, 99,100,101,102,103,104,105,196,197,198,199,200,201, 
     202,106,107,108,109,110,111,112,113,114,203,204,205,206,207,208, 
     209,126,115,116,117,118,119,120,121,122,210,211,212,213,214,215, 
     216,217,218,219,220,221,222,223,224,225,226,227,228,229,230,231, 
     123, 65, 66, 67, 68, 69, 70, 71, 72, 73,232,233,234,235,236,237, 
     125, 74, 75, 76, 77, 78, 79, 80, 81, 82,238,239,240,241,242,243, 
     92,159, 83, 84, 85, 86, 87, 88, 89, 90,244,245,246,247,248,249, 
     48, 49, 50, 51, 52, 53, 54, 55, 56, 57,250,251,252,253,254,255 
}; 

void ebcdicToAscii (unsigned char *s) 
{ 
    while (*s) 
    { 
     *s = e2a[(int) (*s)]; 
     s++; 
    } 
} 

int main (void) { 
    unsigned char str[] = "\xc8\x85\x93\x93\x96\x40\xa3\x88\x85\x99\x85\x5a"; 
    ebcdicToAscii (str); 
    printf ("%s\n", str); 
    return 0; 
} 

事前のおかげで...以下の通りです。

+0

テーブルが間違っています。 '0x5a'はebcdicとして実際は'! 'ですが、あなたの変換テーブルはそれを' 93'( '0x5d')にデコードします。これはアスキー文字で'! 'ではなく'! 'です。 – WhozCraig

+0

注意、 'e2a [(int)(* s)]'にキャスト '(int)'は必要ありません。 'e2a [* s]'で十分です。 – chux

+0

このテーブルは、[ASCII](https://en.wikipedia.org/wiki/ASCII)のみ定義されたコード0〜127として "EBCDIC to ASCII"を超えて試行しています。このテーブルは127より大きい値を出力し、 "非ラテン文字"。確かにOPは、_extended_ ASCIIのいくつかのフレーバーを使用しています。 – chux

答えて

1

ルックアップテーブルが間違っています。 EBCDIC値0x5A( '!')を(小数点)93に変換します。ASCII小数点93は ']'です。したがって、アプリケーションは正常に動作し、 ']'文字を出力します。 IBMコードページ500であるcp500を使用するPythonサンプルからルックアップテーブルを生成したことを示しています。このコードページは実際にはEBCDIC値0x5Aを ']'文字にマップします。ルックアップテーブルにhereと記載されている文字セットを使用する場合は、問題ありません。

関連する問題