機械学習用に自然なテキストファイルが必要です。この目的のためにはWikipediaのダンプが最適です。だから、どのようにXMLタグ(コンテンツだけ)なしでいくつかの言語(non-eng)でいくつかのgbのテキストをダウンロードできますか?wikiパーツを1つのtxtファイルにダウンロードするには
答えて
フェーズ:
ゴーdumps.wikimedia.orgします。あなたの要求に合ったダンプを探しましょう。機械学習では、あなたの言語の「すべてのページ、最新バージョンのみ」のダンプをダウンロードするのが最善の方法です。ダウンロードして解凍します。
相B:ダンプとして
は、コンテンツのウィキ・マークアップ構文を持つXMLファイルである - それは、プレーンテキストに変換する必要があります。私が見つけた最良の解決策は、このツールキット(https://github.com/yohasebe/wp2txt)を使用することです。それは多くの記憶を必要とせず、うまく動作します。
相C:
wp2txtは、10メガバイトのtxtファイルの数百を生成しますので、我々はそれらを連結する必要があります。窓のいずれかの
cat * > all.txt
nixシステムで
または
cat dump.txt | sed 's/\W/ /g'
を使用してください。
P.S.また、私はMLケースのためのより良い準法的解決法を見つけました。解決策は、いくつかの巨大なtxt-literatureライブラリをダウンロードすることです。素晴らしい学習を!
dumps.wikimedia.orgから任意のウィキペディアのすべてのコンテンツのダンプを取得できます。おそらく*wiki-20160501-pages-articles.xml
ファイルのいずれかが必要です。その後、あなたはxmlstarletなどのツールを使用してダンプからすべてのXMLタグを取り除くことができます:
xml sel -t -c "//text()" fywiki-20160501-pages-articles.xml > articles.txt
しかし、Wikipediaのダンプ内のテキストはwikiのマークアップではなく、自然な文章になります。これはあなたのきれいなコーパスを与えるものではありません(例えば、wikimarkupキーワードやHTMLエンティティは、まだあなたのダンプファイルになります)が、それは十分に近いかもしれ
cat dump.txt | sed 's/\W/ /g'
:あなたはsed
のようなもので、英数字ではないすべてのものを取り除きますあなたの目的のために。
Xmlstarletはあまりにも多くのメモリを必要とします。私はそれを試したたびにメモリ不足の例外が発生しました。代わりにwp2txtを使用してください。 – tmt
- 1. wikiを1つ以上のファイルでダウンロードする
- 2. C#複数のテキストボックスを1つの.txtファイルに保存する
- 3. MySQL DB Infoを1つのtxtファイルに展開する
- 4. 複数のリンクを1つのファイルにダウンロードする方法は?
- 5. ファイル名をtxtファイルのURLリストにダウンロードして変更する
- 6. すべての出力を1つのtxtファイルにstdoutするには
- 7. javaで.txtファイルをダウンロード/エクスポートするには?
- 8. ウェブサイトからtxtファイルをダウンロードする
- 9. pythonを使って(同じディレクトリ内の).txtファイルを1つのメインの.txtファイルに結合する
- 10. r - 1つのcsvファイルを複数のtxtファイルに分割する
- 11. TXTファイルを1行ずつ読む - Python
- 12. 1つのアイテムのみを.txtファイルに保存する方法は?機能
- 13. 複数のopenpyxl xlsxワークブックを1つの.zipファイルにダウンロードする
- 14. .txtファイルに含まれる複数のURLをダウンロードするには
- 15. phpのtxtファイルの1行を削除するには?
- 16. 2つのリストを既にtxtファイルに追加するには?
- 17. txtファイルには、私のように、行ごとに1つのURLに各URLをcontaningファイルをtxtをしているファイルに
- 18. txtファイルから変数にコンテンツをダウンロードする
- 19. mysqlをtxt/xmlファイルにエクスポートしてダウンロードする
- 20. cmdプロンプトを使用して.txtファイルを1つのファイルに連結します。
- 21. ハイパーリンクをクリックすると.txtファイルをダウンロードする方法は?
- 22. txtファイルから1つのcoloumnデータのヒストグラムをプロットする
- 23. .txtファイルを静かにMacBookのデスクトップにダウンロード
- 24. 1つのtxtファイルから価値を得て別のファイルに追加するには?
- 25. PHPでftp_getを使用して1つ以上のファイルをダウンロードするには
- 26. 複数の.txtファイルをFTP経由でサーバーにアップロードするサーバー上の1つのファイルに複数の.txtファイルをアップロードする
- 27. Codeigniterで既存のPDF、Excel、およびTxtファイルをダウンロードするには?
- 28. VBOXでDropboxからpublic TXTファイルをダウンロード
- 29. 私は3つのtxtファイルを1つのファイルにまとめたいと思っています。#
- 30. wget - ダウンロードを1つのファイルに保存し、進行状況を別のファイルにダウンロードします
誰かがそれをやったことがあれば、それをどこかにアップロードすれば素晴らしいだろう、多くの人に役に立つかもしれない。 – bits