2016-05-16 8 views
1

JavaScriptの分割機能を使用して次の文をトークン化しようとしています。JavaScriptを使用してセンテンスをトークン化する方法

CHRIS NISWANDEE, 
    (SMALLSYS INC, 
    795 E DRAGRAM), 
    TUCSON AZ 85705, 
    USA 

私の期待される結果は

"CHRIS NISWANDEE, (SMALLSYS INC, 795 E DRAGRAM), TUCSON AZ 85705, USA".split(/\b\s+/) 

、次のコードを使用して、単語のboundriesで分割することができイム、

"chris","niswnadee",",","(","smallsys","inc","785","e","dgram","("... 
etc 

である私は私の中でそれらのコンマとparenthesizesを得ることができますどのような方法があります結果は?

答えて

3

おそらく/\s+|\b/に分割したいと思うようです。

それは意味: "空白の任意のシーケンス(\s+または|)任意のワード境界(\b)"

"CHRIS NISWANDEE, (SMALLSYS INC, 795 E DRAGRAM), TUCSON AZ 85705, USA".split(/\s|\b/) 

出力

["CHRIS", "NISWANDEE", ",", "(", "SMALLSYS", "INC", ",", "795", "E", "DRAGRAM", "),", "TUCSON", "AZ", "85705", ",", "USA"]