私はテキスト解析を行うためにRとtmパッケージを使用しています。 私は、特定の式が個々のテキストファイルの内容内にあるかどうかに基づいて、コーパスのサブセットを構築しようとしています。テキストファイルの内容に基づいてコーパスをサブセット化する
私は20個のテキストファイル(この例ではあなたにlukeAに感謝)とコーパス作成します。私は今、サブセット・コーパスを作成するには、文字列「低価格化」が含まれているのみテキストファイルを選択したいと思います
reut21578 <- system.file("texts", "crude", package = "tm")
corp <- VCorpus(DirSource(reut21578), list(reader = readReut21578XMLasPlain))
を。
writeLines(as.character(corp[1]))
は、どのように私は最高これを行うに行くか:文書の最初のテキストファイルを検査
、私はその文字列を含む少なくとも1つのテキストファイルがあることを知っていますか?ここで
この追加をいただきありがとうございます。私は同意する、それは非常に便利です! – tarti