2011-06-28 18 views
0

私はウィキペディアの記事の位置情報を抽出しようとしています。 記事が、Coordまたはcoordという名前のテンプレートタグとして表示されるcoordテンプレートを使用するのは、かなり簡単です。Wikipedia XML Dumpから座標+ Zoomlevelを抽出

しかし、古い記事では、coordテンプレートなしでinfoboxに座標を置く別の構文を使用することがあります。座標を抽出するのは簡単ですが、場所のコンテキストを取得することは難しくなります。

一部の記事では細分化パラメータを合理化しているものもあれば、coordinates_typeパラメータを持つものもありますが、これまでのところ、対応するマップのズームレベルを判断する良い方法が見つかりませんでした。

誰でも手助けできますか?

+0

は自分の質問に答えるために:簡単な方法はありません。 – nambrot

答えて

1

私の解決策は次のとおりです。

まずはCoordテンプレートを確認してください。それは最も信頼できるものです。表示:titleのテンプレートのみをチェックするようにしてください。

Coordテンプレートが見つからない場合は、古いlatd、Lat_d、lat_degreesパラメータを使用してください。

Asズーム・レベルの場合は、Coord Templateのタイプ、またはdimensions、scale、typeおよびpopulationを含むcoordinate_typeパラメータを探してみてください。

もしそうでなければ、他のいくつかのソースからzoomLevelを解析する必要があります。 私は人口と地域のパラメータを行い、情報をチェックしました。

関連する問題