2017-11-24 4 views
0

XML Wikipediaのダンプをロードします: http://ftp.acc.umu.se/mirror/wikimedia.org/dumps/enwiki/20171001/enwiki-20171001-pages-articles.xml.bz2 をElasticsearch(5.6.4)にロードします。 しかし、私が見つけたすべてのツールとチュートリアルは古く、私のElasticsearchバージョンと互換性がありません。 ダンプをElasticsearchにインポートする最良の方法は誰でも説明できますか?Wikipediaを読み込んでElasticsearchにダンプします

答えて

1

2年前、ウィキメディアは生産弾性検索インデックスのダンプを利用可能にしました。

インデックスは毎週エクスポートされ、各ウィキには2つのエクスポートがあります。

The content index, which contains only article pages, called content; 
The general index, containing all pages. This includes talk pages, templates, etc, called general; 

、あなたのニーズに応じてマッピングを作成し、ここでhttp://dumps.wikimedia.org/other/cirrussearch/current/

  • それらを見つけることができます。たとえば、次のように

    { 
        "mappings": { 
        "page": { 
         "properties": { 
          "auxiliary_text": { 
           "type": "text" 
          }, 
          "category": { 
           "type": "text" 
          }, 
          "coordinates": { 
           "properties": { 
           "coord": { 
            "properties": { 
             "lat": { 
              "type": "double" 
             }, 
             "lon": { 
              "type": "double" 
             } 
            } 
           }, 
           "country": { 
            "type": "text" 
           }, 
           "dim": { 
            "type": "long" 
           }, 
           "globe": { 
            "type": "text" 
           }, 
           "name": { 
            "type": "text" 
           }, 
           "primary": { 
            "type": "boolean" 
           }, 
           "region": { 
            "type": "text" 
           }, 
           "type": { 
            "type": "text" 
           } 
           } 
          }, 
          "defaultsort": { 
           "type": "boolean" 
          }, 
          "external_link": { 
           "type": "text" 
          }, 
          "heading": { 
           "type": "text" 
          }, 
          "incoming_links": { 
           "type": "long" 
          }, 
          "language": { 
           "type": "text" 
          }, 
          "namespace": { 
           "type": "long" 
          }, 
          "namespace_text": { 
           "type": "text" 
          }, 
          "opening_text": { 
           "type": "text" 
          }, 
          "outgoing_link": { 
           "type": "text" 
          }, 
          "popularity_score": { 
           "type": "double" 
          }, 
          "redirect": { 
           "properties": { 
           "namespace": { 
            "type": "long" 
           }, 
           "title": { 
            "type": "text" 
           } 
           } 
          }, 
          "score": { 
           "type": "double" 
          }, 
          "source_text": { 
           "type": "text" 
          }, 
          "template": { 
           "type": "text" 
          }, 
          "text": { 
           "type": "text" 
          }, 
          "text_bytes": { 
           "type": "long" 
          }, 
          "timestamp": { 
           "type": "date", 
           "format": "strict_date_optional_time||epoch_millis" 
          }, 
          "title": { 
           "type": "text" 
          }, 
          "version": { 
           "type": "long" 
          }, 
          "version_type": { 
           "type": "text" 
          }, 
          "wiki": { 
           "type": "text" 
          }, 
          "wikibase_item": { 
           "type": "text" 
          } 
         } 
        } 
        } 
    

    }

あなたがちょうど入力したインデックスを作成した後:

zcat enwiki-current-cirrussearch-general.json.gz | parallel --pipe -L 2 -N 2000 -j3 'curl -s http://localhost:9200/enwiki/_bulk --data-binary @- > /dev/null' 

をお楽しみください!

関連する問題