トークン化されたテキストを表すデータベースにトークンというテーブルがあります。データベースからテーブル全体を反復処理する最も良い方法は何ですか?
各行は、私が知りたいのは何(トークンからであるというテキストを識別するための)のTextBlock、文や位置などの属性やなどのテキスト、カテゴリ、chartype、のような論理フィールド
をぐるぐる以上のすべての反復でありますパターンを見つけていくつかの操作を行うトークン。たとえば、カテゴリとして名前を持つ2つの隣接するトークンを1つにマージします(この後、位置をリセットします)。私は何らかのリストが必要だと思う。
これを行うにはどのような方法が最適ですか? SQLクエリを使用して、パターンを検索したり、テーブル内のすべてのトークンを反復処理したりします。私はクエリが複雑になるだろうと思うし、多分リストがよりシンプルになるように繰り返しますが、どのような方法であるのかわかりません(例として、Javaリストを取得するか、繰り返し実行できる言語を使用しますデータベース上で右に変化する)。
この質問に私が知りたいことは、これを行うための最も推奨される方法です。私はJavaを使用していますが、もし他の言語がうまくいけば問題はありません。私はRを使って統計計算を行う必要があると思います。
編集:テーブルが大きく、何百万行もあり、メモリ全体が読み込めません。
R http://www.joeconway.com/plr/あまりにも多くの新しい質問を開かないでください。あなたの研究分野は面白いですが(私たちの一部に)、人々は混乱したり、迷惑になるかもしれません。 – wildplasser