私はこれを理解しました。他の誰かが苦労している場合は、ここで私がやったのです。答えはドキュメントにありますが、それはちょうどで、それはではありません。
読む:http://www.opensearchserver.com/documentation/faq/crawling/how_to_extract_specific_information_from_web_pages.md - それは方法
が含まれていますが、「ウェブクローラー」インデックスを設定すると仮定します。スキーマ/フィールドに
<meta name="thumbnail" content="http://my_cdn.com/news/images/29637.jpg">
行く:あなたはこのようなメタサムネイルを使用していると仮定すると、
。インデックスなしの新しいフィールド「サムネイル」を追加し、はい、ベクトルなし、アナライザーのテキスト、空白のコピーを追加します。それを保存します。
今すぐスキーマ/パーサーリストに行き、HTMLパーサーを編集してください。 'field mapping'に行き、htmlのサムネイルの新しい正規表現を追加するようになりました。 'htmlSource'から一致する正規表現を使用してサムネイル 'にマップします。 (ただし作品)
私の不完全な正規表現は次のとおりです。
htmlSource - >にリンク:サムネイル - >によって捕獲:今、これを保存し、/マニュアルクロールをクロールするために行く
(?s)<meta name="thumbnail" content="(.*?)">
、入力します。 urlにサムネイルが表示されているかどうかを確認し、次にそのフィールドが読み込まれたときに下のリストに表示されるかどうかを確認します。正規表現をチェックしないで、実際にHTML Parserの変更を保存したことを確認してください。
検索結果に親指を取得するには、単にJSONにフィールド名を追加するには、クエリを使用して送信します
"returnedFields": [ "
"url",
"thumbnail"
],
を