"Web Scraping with Python"を読んでいます。第8章では、著者は以下のコードを示すngramsの例を経る: from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import string
import operator
def cleanInput(input):
私はコーパスに対してunigramsとbigramsの2つの文書 - 項行列を作ろうとしています。しかし、バイグラム・マトリックスは現在、ユニグラム・マトリックスとまったく同じです。私はなぜその理由がわかりません。 コード: docs<-Corpus(DirSource("data", recursive=TRUE))
# Get the document term matrices
Big