rのキーワードのみを含む段落を抽出する

したがって、Rのテキストファイル内では、「割引率」が記載された段落を探している多くのドキュメントをスキャンする必要があります。私はそれが見つかった段落全体を抽出したいだけです。各段落の前後に、テキストファイルに ""と書かれた空白行があります。私はそれを試してみました何のいくつかのサンプルコードが動作していない提供し、キーワード「割引率」rのキーワードのみを含む段落を抽出する

t <- c(grep(" discount rate ",txt,ignore.case = T),grep(" discounted cash flow",txt,ignore.case = T)) 

    temp <- unlist(str_extract_all(txt,"\r\r. discount rate .\r\r"))

が含ま一つはtxtファイルの数段落は、だから私の方法は、すべての行をしようとして抽出することでした「割引率」を含むことを許可するが、このコードでは明らかに不成功であった。

「」
「（9）」
「は有用ではないそうでない場合は廃止されたか、磨耗またはno」
は「長いが使用し、破損した任意のプロパティまたは機器のいずれかの売却または処分Armor Holdingsの事業に関連して "
"持株会社またはその制限付子会社 "となります。
「セール・アンド・リースバック取引の点で」
「\」帰属債務\「」
『決意の時には手段、ネットレンタルの支払いのための』
」賃借人の債務の現在価値「
」のリース期間を含めて、そのような「
」リースが延長された期間を含めて、またはリースのオプションで延長される可能性があります。このような「
そのような取引において暗黙的に関心がある金利 "
"に等しい割引率を用いて現在価値を計算するGAAPに従って決定された。
「」
「\」受益者\「は『
」所有権有益を計算することを除いて、取引法に基づく13D-3"
』とルール13D-5規則で、このような用語に与えられた意味を持っています（当該法律がExchange Actのセクション13（d）（3） "
"で使用されている）のいずれかである場合、その "人物"は "
"そのような権利が現在行使可能であるか、または「
」が行使可能であるかにかかわらず、そのような権利が転換によって取得する権利を有するすべての有価証券のうち、またはその他の証券の「
」行使次の状態の発生時には、。用語 "
は "\と\ "有益に所有\" に対応する意味を有するものとする" 有益には、\を所有" " ""
を "\" の取締役会は、\" 意味： "
""
を"（ 1）法人、「
『法人の取締役会に対して、』
『』
『（2）パートナーシップに対して、取締役会』の
」一般的なパートナーパートナーシップ。「
」「
」（3）同様の機能を果たす者の委員会「
」。「
『』 TEXT.TXTとして、ファイルを保存する

出典

2017-07-31 Kevin Ocampo

が、これは私の作品：

私は新しい行のためのダミーとして\nを追加しましたので、私はstrsplit引数にその上で分割することができます。関数は第二段落を返します。この情報がお役に立てば幸い！

出典

2017-07-31 16:16:40 Florian

このソリューションは、インターネット上のディレクトリからすべてのテキストファイルを取得しているので、私のアプリケーションには完全に機能します。ありがとうございます！ –

テキストで改行を変更したくない場合、あなたはこのような何かを行うことができます（txtは、あなたの質問内の文字列ベクトルである）

# generate a variable for paragraph number 
df <- data.frame(txt, paragraph = cumsum(txt == "")) 
# find paragraphs with the search term 
keep_paragraph <- df[grep("discount rate", df[, "txt"]), "paragraph"] 
# subset the data.frame 
df <- df[df$paragraph %in% keep_paragraph,]

出典

2017-07-31 16:40:22

良い解決策、私は段落の上に行を分割するのに苦労していましたが、これはそれを非常にうまく解決します。+1 – Florian

rのキーワードのみを含む段落を抽出する

答えて

関連する問題