2011-08-13 8 views
1

file_get_contents関数を使用してリモートページを解析します。エンコーディングの問題。私がutf-8でサイトを解析しようとすると、すべて正常に動作しますが、エンコードがcp1251の場合、結果は次のようになります。任意のエンコーディングでの構文解析

.UA/ : 、 、 、 、 、 、 。、 、 、 、 、

この機能は、Facebookブックリンクのように機能します。ユーザーがリンクを入力し、結果を取得します。任意のエンコーディングでサイトを解析するための関数やメソッドが必要です。スクリプトエンコーディング - UTF-8。

答えて

2

mb_check_encoding()を試してみると、1つのフィッティングが表示されるまでエンコードを試すことができます。

しかし、あなたはfile_get_contents()のストリームコンテキストでちょっと遊んだり、cURLを使ってサイトを取得してください。このようにして、ヘッダとその中でドキュメントに使用されるエンコーディングを得ることができます。エンコーディングが分かれば、簡単にconvert it to UTF-8にする必要があります。