SeleniumとPythonを使用してウェブサイトのテキストを抽出します。

特定のWebページのすべてのテキストを抽出します。SeleniumとPythonを使用してウェブサイトのテキストを抽出します。

JavaScriptでコードは次のようになります。

var webPage = require('webpage'); 
var page = webPage.create(); 

page.open('http://phantomjs.org', function (status) { 
    console.log('Stripped down page text:\n' + page.plainText); 
    phantom.exit(); 
});

私はPythonでpage.plainTextを実行するにはどうすればよいですか？

おかげ

出典

2017-11-01 kambi

あなたが今まで試してみましたセレンコードとは何ですか？ –

あなたはセレンで、あなたは「トップ」の要素とのgetText（への呼び出しの後を選択する必要があることを行うにしたい場合）。 Pythonで例えば

、：

driver = webdriver.PhantomJS(executable_path=r'pathTo/phantomjs') 
driver.get("https://en.wikipedia.org/wiki/Selenium_(software)") 
el=driver.find_element_by_tag_name("body") 
print(el.text) 
driver.close()

出典

2017-11-01 12:13:19

このコードを試してみてください。

text = driver.find_element_by_tag_name("body").get_attribute("innerText")

出典

2017-11-01 13:21:17

SeleniumとPythonを使用してウェブサイトのテキストを抽出します。

答えて

関連する問題