2012-03-06 10 views
1

私のプロジェクトでJWPL APIを使用しようとしています。私は特定の曖昧さ回避ページですべての手段を得る必要があります。たとえば、曖昧さ回避のページについてはAppleです。ウィキペディアの曖昧さ回避ページのすべての手段を取得するには?

あなたは私にそれについて何か教えていただければ幸いです!

+0

JWPLは分かりませんが、そのページ内の記事へのリンクをすべて取得するだけで十分です。 – svick

+0

ある言葉があれば、その曖昧さ回避ページを入手できますか?あなたができるなら、あなたは私にどのように教えてくれますか? – user1210738

+0

あなたは 'Term'と' Term(曖昧さ回避) 'を試すことができます。あなたは、カテゴリが[すべての曖昧さ回避ページ](http://en.wikipedia.org/wiki/Category:All_disambiguation_pages)に入っているとき、そのページが曖昧さ回避ページであることを確実に知っています。 – svick

答えて

2

あなたがまだ必要と答えているのかどうか分かりませんが、要するにすべての可能な意味を集めたい場合は、曖昧さ回避ページを使用しないでください。 なぜですか?それらは整形されておらず、しばしば単語の特定の意味に対応しない多くのリンクを含んでいるからです。 *で始まる最初の行だけを解析し、その行の最初のリンクを収集したとしても、間違った結果が得られます。 代わりに、ウィキペディアのすべてのリンクを収集し、そのアンカーテキストをキーワードとして保存し、ターゲットの記事をそのキーワードに可能な意味で保存する必要があります。副作用として、ある単語が特定の意味にどれくらいの頻度で対応しているかに関する良い統計を得ることができます。可能な意味の別のリソースは、リダイレクトページと記事タイトルです。たとえば、同じエンティティで異なる曖昧さ回避部分を持つすべての記事を収集し、そのエンティティに対して可能な意味として使用できます。

コメントの答えをもっと詳しく知りたい場合は、jwplを使ってWikipediaに含まれているすべてのリダイレクト、エンティティ、およびリンクテキストの可能な意味を含むコレクションとインデックスのコードを提供することもできます。

+0

Wikipediaのダンプからすべてのリンクを取得できますか? pagelinks.sqlダンプにアンカーテキストが含まれていないことは残念です... – pnsilva

+0

私はjwpl APIを使用しています。pages-articles.xml、pagelinks.sql、categorylinks.sqlが必要です。 apiでアクセスしてください。 http://code.google.com/p/jwpl/wiki/DataMachine – samy

関連する問題