2017-06-07 38 views
0

私はtwitterのデータを使ってテキストマイニングプロジェクトを進めています。私のデータフレームでは、多くの単語がUnicode文字に変換されます。 特定の文字で始まり、終わる文字列を見つける

<U+0E2B><U+0E25><U+0E07><U+0E1E>

は、私はすべてが上記のような言葉を変換収集し、私は別々に扱うことができるように1つの大きな文字列に入れたいです。

<U+で始まり、>で終わるすべての文字列をRで検索する方法はありますか?

+0

おそらく、あなたは 'grepを探しています( "^(?:)+ $"、x)'は –

+0

私はこれを試してみました私のデータフレームには行がありますが、何らかの理由で結果が返されます: 'integer(0)' – Marco

+0

期待される出力をサンプルデータとして提供してください。 –

答えて

1

あなたのリクエストは少し正確ではないので、私は出力をどのようにしたいかについていくつかの仮定をする自由を取っています。

text <- "Words <Q+0E2B><U+0E2B2>, 1 < 2, <p> 
     <U+0E2B><U+0E25><U+0E07><U+0E1E> </p> some more words" 

regmatches(text, gregexpr("<U\\+[0-9A-Z]{4}>", text)) 
# "<U+0E2B>" "<U+0E25>" "<U+0E07>" "<U+0E1E>" 
+0

これは私が期待した出力ですありがとうございます。 – Marco

関連する問題