大きなAQLクエリでRAMが不足しています。コレクションを2つに分割しようとしています

私の問題hereを解決するために、ArangoDbのAQL言語を使用してコレクションを2つに分割しています。グラフの作成は「正規化」されたコレクションでのみ行うことができます。しかし、私のクエリは私のRAM（16GB）のすべてを食べています。大きなAQLクエリでRAMが不足しています。コレクションを2つに分割しようとしています

FOR comment IN collection_name 
    COLLECT author = comment.author 
    , subreddit = comment.subreddit 
    WITH COUNT INTO counter 
    RETURN {author, counter, subreddit}

結果をRAMにプルすることなく直接ディスクにダンプする方法はありますか？または、クエリを使用せずに直接分割する方法はありますか？

出典

2017-11-25 Gabriel Fair

これは、これに関連するバグである可能性があります。https://github.com/arangodb/arangodb/issues/3806 –

クエリを実行する前のデータの量は？ – Virmundi

ここでの問題は、COLLECTステートメントがメモリ内で動作することです。あなたのコレクションには4,000万のドキュメントがあり、それらのすべてで作業したいので、72.424.492のuniqアイテムを収集するとこれはうまくいかないでしょう。

1は、このサブセットを作成するためにOPTIONS { ignoreErrors: true }を使用することができ、あなたが作成望むサブセットのコレクションを作成します。

あなたauthor -fieldは、各著者に_key UNIQを作成するためにMD5()を使用することができます（私たちが識別しignoreErrors -optionとの重複をスキップする必要があります）_keyフィールドで許可されていない文字列が含まれる可能性があるため。 uniqの作成者ごとに著者のエントリを作成したクエリは、次のようになります。

db._query(` 
    FOR item IN RawSubReddits 
    INSERT { 
     _key: MD5(item.author), 
     author: item.author 
     } INTO authors 
     OPTIONS { ignoreErrors: true }`);

あなたはこれらを持っていたら、エッジコレクションから数を更新できますgithubの上

db._query(` 
    FOR onesubred IN RawSubReddits 
    INSERT { 
     _from: CONCAT('authors/', MD5(onesubred.author)), 
     _to: CONCAT('RawSubReddits/', onesubred._key) 
    } INTO authorsToSubreddits")

This post以上を提供することができます情報。

出典

2017-12-06 10:55:56 dothebart

大きなAQLクエリでRAMが不足しています。コレクションを2つに分割しようとしています

答えて

関連する問題