0
luceneのExtractWikipediaツールを使用して、最新の英語wikiページのbz2ダンプを抽出しました。結果の.txtファイルには、ウィキペディアのマークアップ言語が含まれています。ディレクトリ上の各ファイルの内容のみを解析するツールやPythonスクリプトはありますか? (つまり、コンテンツにマークアップが含まれないようにファイルを変更する)ディレクトリ内のファイルからWikipediaのマークアップを解読する
また、これを達成するためのJavaライブラリまたはパッケージがありますか?私はそれをLuceneクラスのExtractWikipediaに統合したいと考えています。