2017-11-01 8 views
1

特定のWebページのすべてのテキストを抽出します。SeleniumとPythonを使用してウェブサイトのテキストを抽出します。

JavaScriptでコードは次のようになります。

var webPage = require('webpage'); 
var page = webPage.create(); 

page.open('http://phantomjs.org', function (status) { 
    console.log('Stripped down page text:\n' + page.plainText); 
    phantom.exit(); 
}); 

私はPythonでpage.plainTextを実行するにはどうすればよいですか?

おかげ

+0

あなたが今まで試してみましたセレンコードとは何ですか? –

答えて

1

あなたはセレンで、あなたは「トップ」の要素とのgetText(への呼び出しの後を選択する必要があることを行うにしたい場合)。 Pythonで例えば

、:

driver = webdriver.PhantomJS(executable_path=r'pathTo/phantomjs') 
driver.get("https://en.wikipedia.org/wiki/Selenium_(software)") 
el=driver.find_element_by_tag_name("body") 
print(el.text) 
driver.close() 
0

このコードを試してみてください。

text = driver.find_element_by_tag_name("body").get_attribute("innerText") 
関連する問題