Rの初心者とテキストマイニング。現在tmパッケージを使用しています。Rテキストマイニング - 文章を混ぜることなく、段落を1つにまとめる。
2つの異なる文書のテキストを一緒にコーパスに追加しようとしています。 私は
c(corpus.doc[[1]],corpus.doc[[2]])
またはペースト文の
paste(corpus.doc[[1]],corpus.doc[[2]])
のようなステートメントを使用する場合、私はすべての行の組み合わせテキストの結果を取得します。例えば
:
He visits very often She also
and stays
sometimes more
がどのように私はそれを防ぐため、代わりに
He visits very often
and
sometimes more
She also
stays
かありますを取得することができますように
> corpus.doc[[1]]
He visits very often
and
sometimes more
> corpus.doc[[2]])
She also
stays
は、私はこれらのステートメントを取得することは何かである場合R tmパッケージ内のドキュメントを簡単に結合する方法は?前もって感謝します!
追加情報
Iは
を使用< - C(corpus.doc [[1]]、corpus.doc [[2]]、再帰= TRUE)
私はaが2つの文書を持つコーパスになるので、これらの文書のそれぞれのテキストはまだ結合されていません。私は
a[[1]]
は私にcorpus.docの組み合わせテキストを与えるということをしたいと思います[[1]]とcorpus.doc [[2]]。 PKGのヘルプを
str(corpus.doc)
この
List of 4270
$ CREC-2011-01-05-pt1-PgE1-2.htm :Classes 'PlainTextDocument', 'TextDocument',
'character' atomic [1:74] html head titlecongression record volume issue
head ...
.. ..- attr(*, "Author")= chr(0)
.. ..- attr(*, "DateTimeStamp")= POSIXlt[1:1], format: "2009-01-17 15:45:25"
.. ..- attr(*, "Description")= chr(0)
. . ..- attr(, "Heading")= chr(0) .. ..- attr(, "ID")= chr "CREC-2011-01-05-pt1-PgE1- 2.htm"
のようなものを示し、それは上のいっている...
テキストエディタを使用して、ある文書のテキストをコピーして別の文書のテキストに貼り付けるのはいかがですか? 2つのドキュメントが '' PlainTextDocument 'と' TextDocument 'の例であれば、テキストエディタで編集しても問題ありません。その新しいdocをtmパッケージの入力として使用します。純粋なRソリューションではありませんが、少数のドキュメントしか持たない場合は迅速です。 – Ben
はい...私は知っています:)それは7000以上のこれらのファイル(音声ファイルです)であり、それらが同じスピーカーであるかどうかに基づいてテキストを結合したいと考えています。 – appletree