2017-01-18 6 views

答えて

0

任意の文字列は、いくつかの基本規則(ヌルターミネータ、jsonの禁止記号など)に準拠したバイトシーケンスです。エンコーディングは文字列バイナリデータを表現する単なる方法であるため、文字列を構成するためにどのエンコーディングが使用されたかを判断する魔法の方法はありません。だから、jsonの文字列のエンコーディングは、おそらくドキュメントの中でjsonの発行者によって指定されるべきです。あるいは、何らかの理由で異なる文字列が異なるエンコーディングを持つ場合、その情報はjsonの一部でなければなりません。

0

文字列の文字エンコーディングを決定することは非常に複雑です。適切なアプリケーションの選択については、this SO answerを参照してください。

Apache Tika - the content analysis toolkitは、以下の引用文によると、おそらく最も先進的なの一つである:

のApacheティカ™ツールキットを検出し、そのようなPPT、XLSなど千種類以上のファイルタイプ(からメタデータとテキストを抽出し、およびPDF)。これらのファイルタイプはすべて1つのインターフェースで解析でき、Tikaは検索エンジンの索引付け、コンテンツ分析、翻訳などに役立ちます。ダウンロードページで最新のリリースを見つけることができます。

これらの各ライブラリでJSON文字列を分析すると、後で処理するために使用できる(可能な)CharSetが作成されます。

関連する問題