私は序数変数とテキスト付きの列を持つデータセットを扱っています。一般的に、テーブル構造を維持しながら、テキストマイニングの結果である列を追加したいと考えています。(コンテキスト)テキストマイニング操作の結果である列を追加する
は、例えば、私は、CSVファイルdata-subset.csv
をインポートし、データフレームがdatacsv
datacsv=read.csv("data-subset.csv", header=TRUE,sep=";")
tekst
がテキストを含む第3の列と呼ばれる得られました。私は "fte"の文脈でそのテキスト内の数字(0と1の間にある)を検索し、これらの数字を列fte
として追加したいと思います。参照:
> luid titel tekst
>1 47300 docent wiskunde De Stichting Openbaar Voortgezet Onderwijs 0,65
fte voltijd niveau: havo vwo
>2 43701 docent natuurkunde Speciaal onderwijs fulltime 2015 2016 fte 0,77 Haarlem
>3 43702 assistent basisonderwijs Amsterdam fte 0,5
を私は満足のいく結果がなければtm
とquanteda
install.packages("tm", "quantada")
library ("tm")
library ("quanteda")
のようなパッケージをインストールしている、私はそのような
datacsv ["fte"]<- kwic(datacsv$"tekst", "fte", 4)
など様々な
kwic
文を、使用しようとしました
誰かがテキスト列をマイニングして結果を列(または複数の列)として追加する方法を知っていますか?
ありがとうございます!
だから、数値の文字列があり、数値を抽出したいのですか?質問には再現可能な例を含める必要があります。 [this]を見てください(http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) – Sotos
ようこそStackoverflowへ!あなたのおかげで[mcve] –
を提供してください。私は私の質問を編集しました。うまくいけば、今はもっと使えるはずです。 –