RapidMinerでローカルHTMLファイルからコンテンツを抽出します

-1

私はローカルに保存されたHTML文書から特定のコンテンツを取得するために5時間をかけています。主に私は、 "Worldwide"と "3,041,070"の価値を集めたいと思います。RapidMinerでローカルHTMLファイルからコンテンツを抽出します

<div itemprop="url" class="rankingItem-underTitle"> 
 
<a class="rankingItem-subTitle is-link" data-analytics-category="Internal Link" data-analytics-label="Global Rank/Worldwide" href="/top-websites" itemprop="significantLink">Worldwide</a></div> 
 
<div class="rankingItem-rank js-editable"> 
 
<span class="rankingItem-value js-countable" data-value="3,041,070">#3,041,070</span>

私は本当にすべてが動作を取得することを選択しなければならない事業者かわかりません。

出典

2017-02-22 AUG2010

私はそれを理解しました。正規表現と組み合わせて私はそれを働かせました。 enter image description here

出典

2017-02-23 19:45:11 AUG2010

最初の拡張子は、この単純な例を実行するテキストマイニングモデルをインストールします。両方の値を取得します。

<?xml version="1.0" encoding="UTF-8"?><process version="7.3.001"> 
    <operator activated="true" class="text:extract_information" compatibility="7.3.000" expanded="true" height="68" name="Extract Information" width="90" x="313" y="85"> 
    <parameter key="query_type" value="Regular Expression"/> 
    <list key="string_machting_queries"/> 
    <parameter key="attribute_type" value="Nominal"/> 
    <list key="regular_expression_queries"> 
     <parameter key="Type" value="itemprop=&quot;significantLink&quot;&gt;(.*)&lt;/a&gt;&lt;/div&gt;"/> 
     <parameter key="Value" value="&quot;&gt;#(.*)&lt;/span&gt;"/> 
    </list> 
    <list key="regular_region_queries"> 
     <parameter key="ValueType" value="itemprop=&quot;significantLink&quot;&gt;.&lt;/a&gt;&lt;/div&gt;"/> 
     <parameter key="Value" value="data-value=&quot;.&quot;&gt;"/> 
    </list> 
    <list key="xpath_queries"/> 
    <list key="namespaces"/> 
    <parameter key="ignore_CDATA" value="true"/> 
    <parameter key="assume_html" value="true"/> 
    <list key="index_queries"/> 
    <list key="jsonpath_queries"/> 
    </operator> 
</process>

出典

2017-03-02 01:25:51

RapidMinerでローカルHTMLファイルからコンテンツを抽出します

答えて

関連する問題