R
ソフトウェアを使用して文字列から語句を抽出することです。文字列で繰り返す語句を抽出するR
は同様の構造を有する文字列のセットを有する検討:文字列は、ブラケット(
で始まり、他のブラケット)
で閉じ、その間にそれは例えばコンマ,
で分離いくつかの同一のフレーズを有します"(matrix,matrix,matrix)"
。フレーズが何回繰り返されるかは、あらかじめわかっていないので、2 "(matrix,matrix)"
,3,4 "(matrix,matrix,matrix,matrix,)"
などの繰り返しが可能です。通常は最大6までです。フレーズが1つのみの場合、それは(追加の)角括弧(例:"matrix"
または"(matrix)"
)ではありません。
私が使用して1つのフレーズを抽出するための管理:
NAME <- "(matrix,matrix,matrix,matrix)"
gsub("(\\()(.*,){1,}(.*)\\)", "\\3",NAME, perl = T)
をしかしそこ、より高度な質問である:それはそれだけあればフレーズが繰り返された場合にどのように私は、をチェックすることができ、およびエキスそれ以外の場合はそのままにしておきますか?例えば。それはあなたのことが可能
は、特に説明のために、Wiktor第ありがとうございます:) – Vilmantas