私はWikipedia-Articleを取得しました。記事から最初のz行(または最初のx文字、または最初のy単語)を取り出したいとします。ウィキペディアの最初の行を取得する記事
問題:ソースWiki-Text(API経由)または解析済みHTML(直接的なHTTP-Request経由、最終的には印刷版)を取得できますが、最初の行はどのように表示されますか?通常、ソース(htmlとwikitextの両方)は情報ボックスと画像で始まり、最初に表示される実際のテキストはコードのどこかに表示されます。
たとえば、 Albert Einstein on Wikipedia(印刷版)です。最初の実テキストライン"Albert Einstein(ドイツ語:[albɐtaɪ̯nʃtaɪ̯n]; 1879年4月18日 - 1955年4月14日)は理論的な物理学者でした。は開始されていません。同じことがWiki-Sourceにも適用されます。同じ情報ボックスで始まるなどです。
このタスクをどのように達成しますか?プログラミング言語はJavaですが、これは問題ではありません。
私の頭に浮かんだ解決策は、xpathクエリを使用することでしたが、このクエリはすべての境界ケースを処理するにはかなり複雑です。 [更新]それほど複雑ではありませんでした。下記の私の解決策をご覧ください。[/更新]
ありがとう!
「我々は、代わりに情報データベースを投入するのは、システムがまさにそのようなウィキペディアなどの公共百科事典のデータベースからコンテンツを取得することを考えた」 - http://www.fryan0911.com/2009 /05/how-to-retrieve-content-from-wikipedia.html –
KMan:記事のWikiソースを取得するだけです。 OPによって述べられた問題は依然として適用されます。 – Joey