私は巨大な本のメタデータ(著者、タイトル、日付、URL)で構成されたファイルを持っています。私の問題は、著者名(これはしばしば繰り返されます:著者は何百ものレコードを持つことができます)を操作したいと思っており、X個以上のレコードを持つこれらの著者のサブセットを操作したいと思っています。Openrefine:カウントによるテキストファセット
たとえば、「William Shakespeare」に関連する200件のレコードがありますが、「John Black」などの1件のレコードしかありません。これは古典的な法則であり、 1-2のレコードでそれらの。
コンピュータがフリーズしているため、「テキストファセット」>「カウント」を使用することはできません。
カウントに基づいて、一部のレコードのテキストファセットを持つクエリはありますか?
に
facetCount(value, "value", "COLUMN_NAME") == 100
詳細:
は、あなたがこのような2==
を使用する必要があるだけで、正確なカウント一致を表示するには?まず、空白(ファセット>カスタマイズされたファセット>空白でファセット)を削除し、カスタマイズされたテキストファセット(ファセット>カスタマイズされたテキストファセット)を削除します。そして、それが記憶の問題ならば、ファイルの半分をカットし、一括して処理することをお勧めします。 – iMitweはい、試しました。私はすでに多くのメモリを割り当てていましたが、とにかく、ファイル全体が他の操作に必要です。 –