0
次のコードは、正しいエンコードを検出しません。キリル記号の問題
$data = 'ABCDEG АБВГДЕ';
$charset = mb_detect_encoding($data);
$data = iconv($charset, "UTF-8", $data);
$data = mb_strtolower($data, 'UTF-8');
$datasort = str_replace(array("\r", "\n", " "), '', $data);
$counter = mb_strlen($datasort,'UTF-8');
foreach (count_chars($datasort, 1) as $i => $val)
{
echo '
<tr>
<th scope="row">'.mb_detect_encoding(chr($i)).'</th>
// ON LATIN SYMBOLS IT DETECTED ANCII AND ON CYRILLIC IT DETECTED **NOTHING**
</tr>
';
}
ここに問題がありますか? // PHPファイルはUTF-8エンコーディング
ASCIIはUTF-8のサブセットであり、その文書がASCIIであるならば、それはすでにUTF-8です。この場合、すべての文字はASCIIを返しますが、ループする前にその言葉にしてエンコードを検出しようとすると、UTF-8 –
@headmax Thatsが得られます。しかし、主な質問は、なぜキリル文字のエンコードを検出しようとすると、代わりに**何もない** ASCIIを得ます。 –
なぜ文字エンコードを検出(推測)したいのですか?テキストが書き込まれたエンコーディングで読み込むだけで済みます。その重要な情報(メタデータ)を失ったことはありますか?この場合、エンコーディングはエディタに使用するように指定したものです。 –