Openrefine：カウントによるテキストファセット

私は巨大な本のメタデータ（著者、タイトル、日付、URL）で構成されたファイルを持っています。私の問題は、著者名（これはしばしば繰り返されます：著者は何百ものレコードを持つことができます）を操作したいと思っており、X個以上のレコードを持つこれらの著者のサブセットを操作したいと思っています。Openrefine：カウントによるテキストファセット

たとえば、「William Shakespeare」に関連する200件のレコードがありますが、「John Black」などの1件のレコードしかありません。これは古典的な法則であり、 1-2のレコードでそれらの。

コンピュータがフリーズしているため、「テキストファセット」>「カウント」を使用することはできません。

カウントに基づいて、一部のレコードのテキストファセットを持つクエリはありますか？

出典

2016-11-02 Lara M.

に

facetCount(value, "value", "COLUMN_NAME") == 100

詳細：

は、あなたがこのような2 ==を使用する必要があるだけで、正確なカウント一致を表示するには？まず、空白（ファセット>カスタマイズされたファセット>空白でファセット）を削除し、カスタマイズされたテキストファセット（ファセット>カスタマイズされたテキストファセット）を削除します。そして、それが記憶の問題ならば、ファイルの半分をカットし、一括して処理することをお勧めします。 – iMitwe

はい、試しました。私はすでに多くのメモリを割り当てていましたが、とにかく、ファイル全体が他の操作に必要です。 –

（あなたの実際の列名でCOLUMNS_NAMEを置き換える）次GREL発現とカスタムテキストファセットを作成します。

facetCount(value, "value", "COLUMN_NAME") > 100

をあなたが（例では、すべてが100よりも大きなカウント）の比較を編集することができます。カスタムテキストファセットを使用しようとしました。このvideo + tutorail on facet by facet count

出典

2016-11-02 16:33:17 magdmartin

ありがとう！それでおしまい –

Openrefine：カウントによるテキストファセット

答えて

関連する問題