2011-08-10 4 views
2

Pythonで実際にスクリプトを作成して、指定されたWebページのタイトルタグから内容を取得し、それらをMySQLデータベースに入れたいとします。タイトルタグの内容をPythonスクリプトで取得する

私はPythonの経験はほとんどありませんが、これは私のプロジェクトで行う必要があります。どのように私はこれをできるだけ簡単な方法で行うことができますか?

私が尋ねようとしていることを理解できることを願っています。

答えて

5
  1. study urllib2ウェブページのダウンロード方法をご覧ください。
  2. BeautifulSoupを調べると、HTMLを解析してタイトルを引き出すことができます。
  3. Python Database API Specificationを調べて、 のMySQLデータベースに行を挿入します。ここで

あなたが始めるためにいくつかのサンプルコードです:

import urllib2 
import BeautifulSoup 
import MySQLdb 

f = urllib2.urlopen('http://www.python.org/') 
soup=BeautifulSoup.BeautifulSoup(f.read()) 
title=soup.find('title') 
print(title.string) 

connection=MySQLdb.connect(
    host='HOST',user='USER', 
    passwd='PASS',db='MYDB') 
cursor=connection.cursor() 

sql='''CREATE TABLE IF NOT EXISTS foo (
      fooid int(11) NOT NULL AUTO_INCREMENT, 
      title varchar(100) NOT NULL, 
      PRIMARY KEY (fooid) 
     )''' 
cursor.execute(sql) 

sql='INSERT INTO foo (title) VALUES (%s)' 
args=[title.string] 
cursor.execute(sql,args) 
cursor.close() 
connection.close() 
+0

@ unbuntuのサンプルコードはあなたを始めます。 'urllib2'はPythonの一部ですが、他の2つのパッケージをhttp://pypi.python.org/pypiからインストールする必要があります – agf

1

urllib2を使用してWebページを開きます。次に、返されたテキストを正規表現で解析してタイトルを取得します。

+3

番号を、それは__regular__ていない、HTML上__regular__表現を使用しようとしないでください。また、ポスターがPythonの経験がないと言ったので、これが正しかったとしても、これはまったく役に立たない。 – agf

関連する問題