はここで抽出することpy-wikimarkupとPyQueryを使用してソリューションですすべてのテーブルはwikimarkup文字列のpandas DataFramesとして扱われ、テーブル以外のコンテンツは無視されます。次の入力を考えると
import wikimarkup
import pandas as pd
from pyquery import PyQuery
def get_tables(wiki):
html = PyQuery(wikimarkup.parse(wiki))
frames = []
for table in html('table'):
data = [[x.text.strip() for x in row]
for row in table.getchildren()]
df = pd.DataFrame(data[1:], columns=data[0])
frames.append(df)
return frames
、
wiki = """
=Title=
Description.
{| class="wikitable sortable"
|-
! Model !! Mhash/s !! Mhash/J !! Watts !! Clock !! SP !! Comment
|-
| ION || 1.8 || 0.067 || 27 || || 16 || poclbm; power consumption incl. CPU
|-
| 8200 mGPU || 1.2 || || || 1200 || 16 || 128 MB shared memory, "poclbm -w 128 -f 0"
|-
| 8400 GS || 2.3 || || || || || "poclbm -w 128"
|-
|}
{| class="wikitable sortable"
|-
! A !! B !! C
|-
| 0
| 1
| 2
|-
| 3
| 4
| 5
|}
"""
get_tables
は、次のデータフレームを返します。これによれば
Model Mhash/s Mhash/J Watts Clock SP Comment
0 ION 1.8 0.067 27 16 poclbm; power consumption incl. CPU
1 8200 mGPU 1.2 1200 16 128 MB shared memory, "poclbm -w 128 -f 0"
2 8400 GS 2.3 "poclbm -w 128"
A B C
0 0 1 2
1 3 4 5
:dictの:データフレームは、これらのいずれかから構成することができるhttp://pandas.pydata.org/pandas-docs/dev/dsintro.html#dataframe 1D配列、リスト、辞書、またはシリーズのうちの1つ; 2-D numpy.ndarray; 構造化またはレコードndarray。 Aシリーズ; 別のDataFrame。最も単純なのはlist/dictのdictですが、あなたのデータをこのように強制する方法は明白ではありません。あなたはどう思いますか? – hughdbrown