2012-05-05 6 views
0

私はイエナを使用してDBpediaのからいくつかのデータを持っていると、XML文字は次のように異なる扱いをする必要があることを、いくつかの事情があるので、イエナの出力はXMLに基づいているので:これはどのようなエンコードですか?

Guns n ' Roses 

私はどのような種類を知りたいですこれはコンセンサスですか? javascriptの助けを借りて上記のencode(r)に基づいて入力をデコード/エンコードし、サーブレットに送り返したいと思います。

(あなたが&間のスペースを削除し、私はそのように置くことを決めたことを実行する方法を見つけることができませんでしたstackoverflowの中にいるので、あなたが正しい文字を取得するアンプ側場合、ポスト編集した!)

+0

これは2回エンコードされていますが、それはバグでしょう(おそらく)。これはどこに起こりますか? –

答えて

2

XMLエンティティエンコーディングと見なされ、数字の参照(10進数)です。

数値文字参照は、そのUniversal Character Set/Unicodeコードポイントで文字を指し、そしてあなたがここにいくつかの情報を得ることができます

の形式を使用します。List of XML and HTML character entity references on Wikipediaを。

あなたのキャラクターは、数39、アポストロフィされている:'、また文字実体参照で参照することができます:'

JavaScriptを使用してこれをデコードするには、html_entity_decode()関数を持つphp.jsなどを使用できます(get_html_translation_table()に依存します)。


UPDATE:あなたの編集への返信で:基本的には同じですが、唯一の違いは、それが(おそらく誤って)二回エンコードされたということです。 &はアンパサンド:&です。

関連する問題