2009-05-03 20 views
1

私は英語でクエリを取り、ロシア語で文書を検索するクロス言語情報検索に取り組んでいます。このシステムを評価するには、検索するロシア文書のコレクションを用意するのが良いでしょう。誰もが私が検索することができる文書のコレクションを知っているか、私は簡単に一緒にロシア文書(ウィキペディアを除いて)の束を掻き集めることができますか?彼らは人間の知識のいくつかの特定の領域にあった場合、それはいいだろうけれども検索エンジン用ロシア語文書コーパス

文書は(CS、建築、エンジニアリング、芸術、文学分析、何でも...)何でもすることができ

+0

ウィキペディアで何が問題になっていますか? – Zifre

答えて

1

かどうかを知るしないでくださいこれはあなたが探しているものですが、here's a torrent of Russian national standards and lawsです。それらはdBase4形式であり、約57.3 GBのデータがあります。

+0

私はむしろユニコードのプレーンテキストで何かを持っていて、200-10000のドキュメントが必要です。 –

+0

* nixシステムを使用している場合、http://linux.maruhn.com/sec/dbview.htmlを使用して、dBaseファイルを別の形式に変換することができます。 Windowsでは、ADODBを使用できます。http://www.freevbcode.com/ShowCode.asp?ID=9055 http://www.vbcode.com/Asp/showsn.asp?theID=12507また、ExcelではdBaseファイルを読むことができますが、拡張子.db4はデフォルトでは認識されません。 – Calvin