日本語のテキストを正しく扱うために使用できるluceneアナライザはどれですか?漢字、ひらがな、カタカナ、ローマ字、およびそれらの組み合わせを処理できる必要があります。日本語のテキストを扱うのに、どのようなルーメンアナライザーを使用できますか?
答えて
私自身の目的のために検索をしている間、私はlucene-gosenが見つかりました:
彼らの例では、かなりまともに見えますが、私はそれが広範なテストを必要とするもののようなものだと思います。私はまた、彼らの後方互換性の方針(またはむしろ完全なものの欠如)を心配しています。
LuceneのcontribエリアにあるCJKパッケージを見てください。中国語、日本語、韓国語を扱うためのアナライザとトークナイザがあります。
CJKアナライザは、物事を捜す素朴な方法であると思われ、以前の経験からは、の検索結果。 CJKアナライザーをいくつかの重みなどを変更するように動作させるために特に必要なことはありますか? ありがとうございました –
私はCJKアナライザを使ったことがありません。 Luceneのメーリングリスト(http://lucene.apache.org/java/docs/mailinglists.html#Javaユーザリスト)に、より具体的なヘルプを求めてみることができます。Luceneをよく知っている人がいます。 – adrianbanks
- 1. MS Accessデータベース(RStudio)へのクエリで日本語文字を扱う
- 2. MySQLのSQLデータのテキスト言語(日本語、ギリシャ語など...)
- 3. さまざまな向きの言語を扱うための優れたリソースやアドバイスはありますか? (日本語や中国語など)
- 4. ウェブページの言語の長さをどのように扱うか?
- 5. ウィンドウwchar_tは基本的な多言語面の外でユニコード文字をどのように扱いますか?
- 6. Facebookはテキストのオーバーフローをどのように扱いますか?
- 7. iOSとAndroidのトップダウン言語(日本語、中国語など)でテキストを表示するにはどうすればよいですか?
- 8. SubSonic 3.0.0.3 C#予約語はどのように扱うべきですか?
- 9. どのように日付の異なるフォーマットを扱いますか?
- 10. Bluemixはカタログページを日本語で表示しません。日本語でBluemixを使うにはどうすればいいですか?
- 11. ソート日本語テキスト使って「あいうえお」順
- 12. どのようにCancelEventArgsのようなイベントを使用できますか?
- 13. 非同期述語で "Where"をどのように使用できますか?
- 14. PHPファイルアップロード - アラビア語/中国語/日本語ファイル名の扱い
- 15. MySQLで日本語のひらがなとカタカナを同じように扱うのはなぜですか?また、Djangoとどのように互換性を持たせることができますか?
- 16. node.jsのバージョンフォルダをどのように扱うことができますか?
- 17. 本日(2017年)モバイルブラウザにどのようなhtml5オーディオフォーマットを使用すればよいですか
- 18. Excelのように日本語を並べ替える方法
- 19. Android日本語のテキストを日本語に翻訳する言語を変更する
- 20. 日本語のテキストのHTMLコード
- 21. 本当に大規模なマルチ言語プロジェクトを扱う
- 22. SEO非友好的なリンクをどのように扱うべきですか?
- 23. 関数は、無効なデータセットをどのように扱うべきですか?
- 24. Android:set textStyle = "medium"日本語テキスト
- 25. ジェネレータを返すとき、ファイルハンドルをどのように扱うべきですか?
- 26. Pythonでビッグアレイをどのように扱うのですか?
- 27. テキストを切り離せないように扱いますか?
- 28. pygame.font.Fontでどのようなフォントを使用できますか?
- 29. GitHubをどのようなコードで使用できますか?
- 30. Androidで中国語のように見える日本語の文字
lucene-gosenは使用しませんでしたが、gosenを使用しました。だから、私はこの答えを受け入れています(それは十分に近いので、プロジェクトは面白そうです)。 CJKは非常に素朴な検索を行います。これはgosenとは違って、文字と一致するだけの単語ではなく、適切な構文解析のために辞書を使用します。 –