文書内の特定の用語に対する単語の近接度と、平均近接度(ワード単位)を計算する方法を理解しようとしています。私はそれに似た質問があることを知っていますが、私に必要な答えを与えたり、助けてくれと指摘するものはありません。にどちらかの側の言葉は、左へ15((私は交換可能で、この数をしたいと思います)私は15内に現れるものを言葉見ることができるようにしたい文書内の特定の用語に対する単語の近接度を計算する方法
song <- "Far over the misty mountains cold To dungeons deep and caverns old We
must away ere break of day To seek the pale enchanted gold. The dwarves of
yore made mighty spells, While hammers fell like ringing bells In places deep,
where dark things sleep, In hollow halls beneath the fells. For ancient king
and elvish lord There many a gleaming golden hoard They shaped and wrought,
and light they caught To hide in gems on hilt of sword. On silver necklaces
they strung The flowering stars, on crowns they hung The dragon-fire, in
twisted wire They meshed the light of moon and sun. Far over the misty
mountains cold To dungeons deep and caverns old We must away, ere break of
day, To claim our long-forgotten gold. Goblets they carved there for
themselves And harps of gold; where no man delves There lay they long, and
many a song Was sung unheard by men or elves. The pines were roaring on the
height, The winds were moaning in the night. The fire was red, it flaming
spread; The trees like torches blazed with light. The bells were ringing in
the dale And men they looked up with faces pale; The dragon’s ire more fierce
than fire Laid low their towers and houses frail. The mountain smoked beneath
the moon; The dwarves they heard the tramp of doom. They fled their hall to
dying fall Beneath his feet, beneath the moon. Far over the misty mountains
grim To dungeons deep and caverns dim We must away, ere break of day,
To win our harps and gold from him!"
と15:それでは、私は次のテキストを持っているとしましょうそれが現れるたびに、「火」という言葉(また交換可能)という言葉の意味(右)。私は各単語と、それがこの「火」の各インスタンスについてこの15語のスパンに現れる回数を見たいと思っています。たとえば、「火」は3回使用されます。それらの3回のうち、「光」という言葉は両側で15語以内に2回入る。私は単語を表示するテーブル、15の指定された近接度、最大距離(この場合は12)、最小距離(7)、および平均距離の表示回数を表示します。 9.5)。
私はこの作業を行うためにいくつかのステップとパッケージが必要だと考えました。私の最初の考えは、特定の用語の周りの "ウィンドウ"を選択できるようになるので、quantaから "kwic"関数を使うことでした。その後、kwicの結果に基づいた用語の頻度カウントはそれほど難しくありません(頻度のためのストップワードは削除されますが、単語の近接度は除外されます)。私の本当の問題は、焦点の期間から最大、最小、平均の距離を見つけて、その結果を素敵な素敵なテーブルに入れて、頻度と列数を降順に並べるというものです。距離、および平均距離。
library(quanteda)
library(tm)
mysong <- char_tolower(song)
toks <- tokens(mysong, remove_hyphens = TRUE, remove_punct = TRUE,
remove_numbers = TRUE, remove_symbols = TRUE)
mykwic <- kwic(toks, "fire", window = 15, valuetype ="fixed")
thekwic <- as.character(mykwic)
thekwic <- removePunctuation(thekwic)
thekwic <- removeNumbers(thekwic)
thekwic <- removeWords(thekwic, stopwords("en"))
kwicFreq <- termFreq(thekwic)
すべてのヘルプははるかに高く評価されています。ここでは
は、私がこれまで持っているものです。
あなたのドキュメントはどれくらいの大きさですか?私は何百万という言葉にうまく対応できないかもしれない解決策について考えることができます。 –
@David Robinson - 今、私は、例としてハムレットの演劇を見ています。私は本当に一度に1つのドキュメントで作業する必要があると思います。私はシェイクスピアコーパス全体にそれを展開することさえできますが、これは100,000語以下の単語であると私は信じています。私はシェイクスピアからウィリアム・オブ・ティアまでの様々なテキストにこれを使用できるようにしたいと考えていますが、何百万語もの単語部門には何もありません。 – DHranger
その場合、以下の私の解決策を見て、それがあなたの目的にとって十分に効率的かどうかを見てください。 'difference_inner_join'は、必要に応じてより効率的にすることができます。 –