2017-02-08 2 views
0

このようなコーパスはどこにありますか?私はトークン(単語)レベルでヒンディー語と英語の間に言語検出器を構築する必要があります。ローマ字のヒンディー語の大文字のコピース

たとえば、ローマ字のヒンディー語のWikipediaのようなものは非常に便利です。または短編小説、ソーシャルメディアの投稿やつぶやき、またはブログですか?何か案は?

私が知る限り、既存の音訳エンジンはあまり良くありません。もし良いものがあれば、それを使うことも考えられます。

+1

[Sanskrit Transliterationの国際的なアルファベット](https://en.wikipedia.org/wiki/International_Alphabet_of_Sanskrit_Transliteration)のルールに従って、独自の翻字ユーティリティをロールバックします。 AFAIK、インド系のテキストはラテン系のアルファベットで書かれていません。翻字は名前のためだけに使用され、孤立した言葉や、非インド系のアルファベットを使用する言語で書かれた本の短い断片に使用されます。 – AlexP

+0

過去10年間で、 "Romanagiri"(ローマ字のスクリプトヒンディー語)は、インスタントメッセージングやソーシャルメディアで遍在的に使用されています。しかし、その言語には本や構造化されたテキストがないことは事実です。あなたの提案は確かに私のベースラインですが、それは十分にうまく機能しません。 – ashu

+1

Iris Kanpur(2015); Hrishikesh TerdalkarとShubhangi Agarwalの「[Romanagari Detection in Twitter](http://home.iitk.ac.in/~hrishirt/cs671/project/report.pdf)」を参照してください。おそらくデータセットのセクションが役に立ちます。著者の電子メールアドレスは[ポスター](http://home.iitk.ac.in/~hrishirt/cs671/project/poster.pdf)に記載されています。 – AlexP

答えて

1

あなたはhindibible.orgを試すことができます。wgetを使用してウェブサイトをダウンロードすれば、翻訳されたヒンディー語で聖書全体が得られます。あなたはdevnagriでテキストを読むのを助けてくれますか?彼らのウェブサイトはヒンディー語でテキストを表示するが、私がダウンロードしたhtmlファイルは英訳された英語である。そして、私はウェブサイトがサーバをシャットダウンすることを決定した場合、devnagriでそれらの変換されたhtmlファイルを読むことができるようにしたい。

関連する問題