私はPythonでmwlibを使ってWikipediaのダンプを繰り返し処理しています。私はリダイレクトを無視して、ページの内容を実際の完全なタイトルで見たいと思います。私はすでにMW-buildcdbを実行した、と私はことをロードしています:Wikipediaを無視するmwlibでリダイレクト
wiki_env = wiki.makewiki(wiki_conf_file)
ときIループwiki_env.wiki.articles()
の上に、文字列がタイトルをリダイレクト含まれているように見える(私は、ウィキペディアに対するサンプルのカップルでこれをチェックしました) 。私はこれらをスキップするアクセサを見ません。wiki_env.wiki.redirects
は空の辞書なので、どの記事のタイトルが実際にそのようにリダイレクトされているのかは確認できません。
私はmwlibコードを見てみたが、私は
page = wiki_env.wiki.get_page(page_title)
wiki_env.wiki.nshandler.redirect_matcher(page.rawtext)
を使用する場合page.rawtextがフルページのコンテンツを含む(すでにリダイレクトされるように表示されていない、とのタイトルの不一致があるという兆候)。同様に、getParsedArticle()
によって返されたArticle
ノードには、チェックする「真の」タイトルが含まれていないようです。
誰でもこの方法を知っていますか?リダイレクトを保存しない方法でmw-buildcdbを実行する必要がありますか?限り、私は命令だけで入力ダンプファイルと出力CDB、他のオプションを取ることがわかります。