2017-06-30 20 views
-1

IMDB用にthisスクラッパを使用していますが、一部の文字がUNICODE ïにあるという問題があります。 私はCURLと、このスクラッパーを使用し、その文字列がUTF8 でエンコードされた答えは、私はmb_detect_encoding()で、文字列のエンコードを取得しようと、それはHEX-CURLの代わりにUNICODE文字を取得するPHP

$html = $this->geturl("${imdbUrl}combined"); 
mb_detect_encoding($html); 

だから私は持っているUTF8で答えます例えば、このような内部のいくつかのHEX値を持つ文字列:

$var = 'Saïd Taghmaoui' 

は、だから私は、私はまだHEXでいくつかの文字を持っている、utf8_decode()が、運と$のhtmlの値を取得しよう。

だから私はいくつかの質問を持っている:

の1-このための最善の解決策は何ですか?私はさまざまなシナリオを想像してみてください。例えば、文字列を読み込んでREGEXを使ってすべての16進数コードを変更してみてください。しかし、もしこれが最善の解決策であるかどうかわからないし、REGEXを作成する方法もわかりません。

2解決策はcURLを使用できますか?私はいくつかの設定を管理して、例えばUTF-8でのcURLのエンコーディングを設定することを意味しますか?

私はmb_convert_encodingかのiconvまたはをrecode_string機能てみてください

答えて

0

まあ基本的に私の問題は、スクラッパーからの答えはUTF-8エンコーディングが付属していますが、印刷の前にテキストは私がする必要があるということですこの機能でデータを操作する

$var = 'Saïd Taghmaoui' 
htmlspecialchars(html_entity_decode($var, ENT_QUOTES, 'UTF-8'), ENT_NOQUOTES, 'UTF-8'); 
関連する問題