mysql - 全文索引 - 自然言語モードとは何ですか？

私はこの記事に関する質問があります：http://dev.mysql.com/doc/refman/5.6/en/fulltext-natural-language.html。mysql - 全文索引 - 自然言語モードとは何ですか？

は、ここで私は、私は理解していない何

SELECT * FROM articles 
WHERE MATCH (title,body) 
AGAINST ('database' IN NATURAL LANGUAGE MODE);

ようなクエリを見つけ、正確に、自然言語モードで何ですか？私はどこにも正確な定義がないと思う。

any1で定義できますか？どのように機能するのですか？

出典

2013-05-16 zozo

MySQLの自然言語全文検索は、最も関連性の高い検索結果を見つけるために、検索クエリをコーパスと照合することを目的としています。だから、「私はパイが大好き」という記事があり、d1、d2、d3というドキュメントがあるとします。文献1と2はそれぞれスポーツと宗教に関するものであり、文献3は食料に関するものである。記事からあなたのクエリ、

SELECT * WHERE（自然言語MODE IN 'とデータベース'）との試合（タイトル、本文）。

d3が記事と最もよく一致するため、d3、d2、d1（記事の並び順に応じてd2、d1のランダムな順序）を返します。

MYSQLが使用する基礎となるアルゴリズムはおそらくtf-idfアルゴリズムです。ここで、tfは単語の頻度を表し、idfは文書の頻度の逆数です。 tfは、文書内の単語wが文書内で出現する回数だけです。 idfは、その単語がどれだけ多くの文書に存在するかに基づいています。だから、多くの文書に出現する言葉は、最も代表的な文書の決定には寄与しません。 tf * idfの積は得点が高くなりますが、単語が文書をよりよく表します。だから、「パイ」は文書d3にしか現れず、したがって高いtfと高いidfを持ちます（逆数なので）。 'the'は高いtfを持ちますが、低いidfを持ち、tfから出て低得点になります。

MYSQL自然言語モードには、ストップワード（、など）も含まれており、4文字未満の単語を削除します。あなたが提供したリンクに表示されます。

いくつかの単語は、フルテキスト検索では無視されています
Any word that is too short is ignored. The default minimum length of words that are found by full-text searches is three characters for 
のInnoDB検索インデックス、またはMyISAMのための4つの文字が。のカットオフを制御するには、インデックスを作成する前に設定オプションを設定します。InnoDB検索インデックスの場合はinnodb_ft_min_token_size設定オプション、MyISAMの場合はft_min_word_lenです。
Words in the stopword list are ignored. A stopword is a word such as “the” or “some” that is so common that it is considered to have 
ゼロセマンティック値。ビルトインのストップワードリストがありますが、ユーザ定義のリストによってオーバーライドされたになる可能性があります。ストップワードリストと関連する設定オプションは、InnoDB検索インデックスと MyISAMインデックスでは異なります。ストップワード処理は、InnoDB検索インデックスの場合はの設定innodb_ft_enable_stopword、innodb_ft_server_stopword_table、およびinnodb_ft_user_stopword_table、MyISAMの場合は ft_stopword_fileという設定によって制御されます。

出典

2014-04-18 23:00:25

mysql - 全文索引 - 自然言語モードとは何ですか？

答えて

関連する問題