ウェブサイトで使用されている単語のリストを生成したい。アプリケーションはサイトのコンテンツをクロールする必要があります。 Solrまたは他の方法でこれを行うことができますか?Solrなどを使ってウェブサイト上で最もよく使われている単語
リストはphpオブジェクト/配列またはxmlファイルです。
ウェブサイトで使用されている単語のリストを生成したい。アプリケーションはサイトのコンテンツをクロールする必要があります。 Solrまたは他の方法でこれを行うことができますか?Solrなどを使ってウェブサイト上で最もよく使われている単語
リストはphpオブジェクト/配列またはxmlファイルです。
あなたはhttp://wiki.apache.org/solr/TermsComponent
例を点検したいと思うかもしれない -
http://host:port/solr/core/terms?terms.fl=title&terms.sort=count
はあなたにカウント数(デフォルト)が注文したフィールドのタイトルのためのすべての条件
terms.fl - Field you want to check the terms on
terms.sort={count|index} - If count, sorts the terms by the term frequency (highest count first). If index, returns the terms in index order. Default is to sort by count.
を与えるこれは、インデックス付きを与えますトークナイザとフィルタを通る用語ですので、用語をそのまま使用する必要がある場合は、フィールド分析を変更することができます。 (おそらくフィールドタイプ文字列を使用)
SOLRは検索エンジンです。ウェブサイトをクロールしません。 scrapy
http://scrapy.org/または類似のツールを使用して簡単なWebサイトのクローラを作成する必要があります。データを記録し、ウェブサイトをクロールし、SOLRに記録更新を送信するSOLRスキーマを設計する。あなたの特定の質問は、Web管理者インターフェースを介してSOLR管理者メニューのSCHEMA BROWSERの選択肢によって解決されるでしょう。 DYNAMIC FIELDS(ダイナミックフィールド)をクリックし、興味のあるフィールドを選択して〜を表示します。10を50に変更し、ENTERを押してトップ50を取得します。