2016-11-02 3 views
2

私は巨大な本のメタデータ(著者、タイトル、日付、URL)で構成されたファイルを持っています。私の問題は、著者名(これはしばしば繰り返されます:著者は何百ものレコードを持つことができます)を操作したいと思っており、X個以上のレコードを持つこれらの著者のサブセットを操作したいと思っています。Openrefine:カウントによるテキストファセット

たとえば、「William Shakespeare」に関連する200件のレコードがありますが、「John Black」などの1件のレコードしかありません。これは古典的な法則であり、 1-2のレコードでそれらの。

コンピュータがフリーズしているため、「テキストファセット」>「カウント」を使用することはできません。

カウントに基づいて、一部のレコードのテキストファセットを持つクエリはありますか?

+1

facetCount(value, "value", "COLUMN_NAME") == 100

詳細:

は、あなたがこのような2 ==を使用する必要があるだけで、正確なカウント一致を表示するには?まず、空白(ファセット>カスタマイズされたファセット>空白でファセット)を削除し、カスタマイズされたテキストファセット(ファセット>カスタマイズされたテキストファセット)を削除します。そして、それが記憶の問題ならば、ファイルの半分をカットし、一括して処理することをお勧めします。 – iMitwe

+0

はい、試しました。私はすでに多くのメモリを割り当てていましたが、とにかく、ファイル全体が他の操作に必要です。 –

答えて

3

(あなたの実際の列名でCOLUMNS_NAMEを置き換える)次GREL発現とカスタムテキストファセットを作成します。

facetCount(value, "value", "COLUMN_NAME") > 100

をあなたが(例では、すべてが100よりも大きなカウント)の比較を編集することができます。カスタムテキストファセットを使用しようとしました。このvideo + tutorail on facet by facet count

+0

ありがとう!それでおしまい –

関連する問題