Ken BenoitとPaul Nultyによるquantedaパッケージを使用してテキストデータを扱います。Quanteda Corpusesを使用して名詞を識別する
私のコーパスには完全なドイツ語の文章が含まれており、すべてのテキストの名詞のみで作業したいと考えています。ドイツ語の1つのトリックは、大文字の単語だけを使用することですが、これは文頭に失敗します。この最小限の例から
Text1 <- c("Halle an der Saale ist die grünste Stadt Deutschlands")
Text2 <- c("In Hamburg regnet es immer, das ist also so wie in London.")
Text3 <- c("James Bond trinkt am liebsten Martini")
myCorpus <- corpus(c(Text1, Text2, Text3))
metadoc(myCorpus, "language") <- "german"
summary(myCorpus, showmeta = T)
myDfm <- dfm(myCorpus, tolower = F, remove_numbers = T,
remove = stopwords("german"), remove_punct = TRUE,
remove_separators = T)
topfeatures(myDfm, 20)
、私が取得したいと思います: 「ハレ」、「サーレ」は、「シュタット」、「ドイツ」、「ハンバーグ」、「ロンドン」、「マティーニ」、「ジェームズ」 、 "ボンド"。
私は動詞/名詞/等を定義する辞書が必要と仮定します。適切な名前(James Bond、Hamburgなど)、または機能/辞書のビルドがあるかどうかを確認します。
ボーナス質問:ソリューションは英語のテキストでも機能しますか?
信じられないほどの、おかげでたくさんケン:選択した名詞の
リストは、quantedaで使用することができます! – CFM