2016-08-20 3 views
1

私はRにアップロードしたスピーチを分析しています。私のデータフレームには、メタデータとスピーチのテキスト全体が含まれています。セクシティブな単語の周りのX単語のsegmentxを切り取る方法 - テキストのうちコーパス

しかし、私はスピーチ全体を分析するだけでなく、特定の単語の周りのテキストの塊を分析する方法を見つけることも望んでいます。たとえば、 "RED"の前後の50語... 新しいデータフレームを作成する方法はありますか?各行はセグメント化されたテキストになります。メタデータも保持するように管理します(同じテーブルではありません複数の基準スピーチよりに「赤」があるので - そこに「赤」の周りの4つのセグメントにすることができ、いくつかはまったくの参照を持っていないもののスピーチでよう

おかげ

答えて

0

quantedaパッケージが実装されています。!あなたのスピーチを含むデータフレームがdfで、テキストを含むカラムがtextsなら、これはうまくいくはずです:

library(quanteda) 
kw <- kwic(df$texts, "red", 50) 

第3引数は、コンテキストウィンドウのサイズを指定します。 kwは、ターゲットワードとその前後のコンテキストの列を持つデータフレームになりました。

+0

大変ありがとうございます – mormit

関連する問題