この "<a href="javascript:8==99999?popDuelloDialog(2754288):popTeam(2386)">Gnistan</a>
"を解析してテキストを抽出します。アンカータグからテキストを解析する方法は?
私はたくさん抽出しようとしましたが、成功できませんでした。
この形式のメソッドをビルドする方法がわかりません "javascriptには" :(numbers)
"が繰り返されていないので、繰り返し部分のみを使用し、本文にテキストを抽出するメソッドが必要です。
私のコードはここにある:
import sys
from PyQt4.QtGui import QApplication
from PyQt4.QtCore import QUrl
from PyQt4.QtWebKit import QWebPage
import bs4 as bs
import urllib.request
import re
from bs4 import BeautifulSoup
class Client(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self.on_page_load)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def on_page_load(self):
self.app.quit()
url = 'http://www.mackolik.com/Genis-Iddaa-Programi'
client_response = Client(url)
source = client_response.mainFrame().toHtml()
soup = bs.BeautifulSoup(source, 'html.parser')
#pattern=re.compile(r"javascript:;")
#js_test = soup.find_all('a', href='javascript')
hreff=soup.find_all("a","javascript:;")
#js_test=soup.select('a[href^="javascript:\('(.*?)'\);"]')
#print(js_test.text)
#type(href)
for i in hreff:
print(hreff[i])
を? –
うん。まず第一に私は "Gnistan"を解析したいと思います。同じページに多くの文章があり、それから私は他の人にも同じ方法を適用します。 –
@タイラーH、あなたは変更してトピック名を一般化しました。私は、同じことを検索しているが、アンカータグのような一般化された言葉からは理解できない人がたくさんいると信じています。あなたの文字列でgoogle "