特定の文字で始まり、終わる文字列を見つける

2017-06-07 38 views 0 likes

私はtwitterのデータを使ってテキストマイニングプロジェクトを進めています。私のデータフレームでは、多くの単語がUnicode文字に変換されます。特定の文字で始まり、終わる文字列を見つける

<U+0E2B><U+0E25><U+0E07><U+0E1E>

は、私はすべてが上記のような言葉を変換収集し、私は別々に扱うことができるように1つの大きな文字列に入れたいです。

<U+で始まり、>で終わるすべての文字列をRで検索する方法はありますか？

出典

2017-06-07 Marco

おそらく、あなたは 'grepを探しています（ "^（？：）+ $"、x）'は –

私はこれを試してみました私のデータフレームには行がありますが、何らかの理由で結果が返されます： 'integer（0）' – Marco

期待される出力をサンプルデータとして提供してください。 –

答えて

あなたのリクエストは少し正確ではないので、私は出力をどのようにしたいかについていくつかの仮定をする自由を取っています。

text <- "Words <Q+0E2B><U+0E2B2>, 1 < 2, <p> 
     <U+0E2B><U+0E25><U+0E07><U+0E1E> </p> some more words" 

regmatches(text, gregexpr("<U\\+[0-9A-Z]{4}>", text)) 
# "<U+0E2B>" "<U+0E25>" "<U+0E07>" "<U+0E1E>"

出典

2017-06-07 12:50:41 AkselA

これは私が期待した出力ですありがとうございます。 – Marco

特定の文字で始まり、終わる文字列を見つける

答えて

関連する問題