左と右の引用符を含むUTF-8エンコードされたhtmlテキストを解析しようとしています しかし、saveHTML()でDOMからhtmlの値を取得しようとすると、引用符は常につまずく。DOM xpathが引用符を壊す
私はDOMに入れる前にテキストをutf8_encodingしていくつか試してみましたが、( '1.0'、 'UTF-8')をコンストラクタに入れてみましたが、うまくいきませんでした。
私はこれを整理する方法が不足しています。 引用符をhtmlエンティティに変換することは私の選択肢ではありません。ここで
は引用符を壊す簡単な例です:
$a = "<html><body><div>won’t you, will you, won’t you, join the </div></body></html>";
$dom = new DOMDocument();
$dom->loadHTML($a);
$xpath = new DOMXPath($dom);
$tag = $xpath->query('//div');
foreach($tag as $t)
echo $dom->saveHTML($t);
が返されるテキストは、次のようになります。あなたは、wonâtあなたは、あなたが、wonâtあなたは、
文字列がどの文字列であるか知っていますか?私はそれがutf8ではないと賭ける –
それはutf8だ。しかし、私は質問で言ったように。文字列にutf8_encodeを使用してdomに渡すと同じ結果が得られます... –