私はテキストマイニングの初心者で、おもちゃプロジェクトでウェブサイトのテキストを処理し、それをトークンに分割しています。しかし、Beautifulsoupを使用してコンテンツをダウンロードした後、私は次のコードBeautifulsoupを使用してテキストトークンを取得する方法
# -*- coding: utf-8 -*-
import nltk
import operator
import urllib3
from bs4 import BeautifulSoup
http = urllib3.PoolManager()
url= 'http://python.org/'
response = http.request('GET',url)
# nltk.clean_html is dropped by NTLK
clean = BeautifulSoup(response.data,"html5lib")
# clean will have entire string removing all the html noise
tokens = [tok for tok in clean.split()]
print tokens[:100]
で.split
方法でそれを分割することができなかったPythonは
TypeError: 'NoneType' object is not callable
が前stackoverflow questionよると教えてくれました、それはその
事実によるものですクリーンは文字列ではなく、bs4.element.Tagです。 を分割して調べると、その魔法が実行され、 という名前のサブ要素が見つかっていますが、その部分要素はありません。あなたはどのように私は私のコードのトークンを取得するための私の目標を達成するために調整する必要があり、そのどれもここで
呼び出しされていませんか?ありがとうございました。
ほとんどあなたがBeautifulSoupのドキュメントを読んでいないように私には見えます。便利な方法でページからトークンを取得する単一の方法はありません。各ページの調査をする必要があります。 –
[BeautifulSoupの表示可能なWebページのテキスト]([https://stackoverflow.com/questions/1936466/beautifulsoup-grab-visible-webpage-text])の重複の可能性あり – Kos