#include <algorithm>
#include <iostream>
#include <string>
#include <vector>
#define BOOST_SPIRIT_UNICODE // We'll use unicode (UTF8) all throughout
#include <boost/spirit/include/qi.hpp>
#include <boost/spirit/include/qi_parse.hpp>
#include <boost/spirit/include/support_standard_wide.hpp>
void parse_simple_string()
{
namespace qi = boost::spirit::qi;
namespace encoding = boost::spirit::unicode;
//namespace stw = boost::spirit::standard_wide;
typedef std::wstring::const_iterator iterator_type;
std::vector<std::wstring> result;
std::wstring const input = LR"(12,3","ab,cd","G,G\"GG","kkk","10,\"0","99987","PPP","你好)";
qi::rule<iterator_type, std::wstring()> key = +(qi::unicode::char_ - qi::lit(L"\",\""));
qi::phrase_parse(input.begin(), input.end(),
key % qi::lit(L"\",\""),
encoding::space,
result);
//std::copy(result.rbegin(), result.rend(), std::ostream_iterator<std::wstring, wchar_t> (std::wcout, L"\n"));
for(auto const &data : result) std::wcout<<data<<std::endl;
}
は、私がこの記事How to use Boost Spirit to parse Chinese(unicode utf-16)? を研究し、期待どおりの結果がboost :: spiritを使ってUTF-8を解析する方法は?
12,3 AB、CD G、Gでなければなりませんガイドに従いますが、言葉 "你好"
を解析するために失敗します\ "GG KKK 10、\" 0 PPP 你好
が、実際の結果はです12,3 AB、CD G、G \ "GG KKK 10、\" 0 PPP
は中国語の単語 "你好"
OSが私の、win7の64-ビットでの解析に失敗しましたUTF-8として単語を保存します
私は混乱しています。あなたは... UTF8を使用していますか?それではなぜwstring? (UTF8はエンコーディングのシングル/ダブル/トリプルバイトシーケンス、右)です。私は説明する資格があるとは思わないが、これは私の知覚の不一致である – sehe
1-4バイト。しかし、はい、それはかなり明るい不一致です。 'char8_t'が導入されるまで、' char'は大部分のUTF-8タイプです。 – Puppy
誰もが言った。 'wstring'はUTF-8を使うときに間違っています。 Windowsで正しくエンコードされたUTF-8リテラル、*特に*が必要な場合は、最も安全な方法はC++ 11リテラルの 'u8 'blah"(Visual Studioにはまだありません)か、 "你好"の代わりに "\ xE4 \ xBD \ xA0 \ xE5 \ xA5 \ xBD"を直接エンコーディングしてください。 –