テキストブロックにある特定のパターンに応じて、 キーワードで事前タグ付けした大量のレジュームをインポートする作業を行っています(レジュームあたり平均約3500語)。おおよそ複数のキーワードの一致のためのテキスト前処理
たとえば、テキストブロックに "codeigniter"または "codeignitor"または "code igniter"または "code ignitor"が含まれている場合、元の単語は "codeigniter"(ある種のルールで定義されている)そのキーワードを含む行にタグを付ける(codeigniter)。
私はの線に沿って何か考えている:
$rules = array(
"keywords" => array("codeigniter","php","mysql"),
"match_relevance" => 0.8
);
$text_analysis = $search_lib->search($rules,$text_block);
をし、テキスト分析を返します:
print_r($text_analysis);
array(
"codeigniter" => 8,
"mysql" => 4
)
上記オーバー簡素化それができる方法の総額であるかもしれません私はこれが比較的似たような方法でどのように達成できるかについていくつかの方向性を探しています。
解決策は、プログラミング言語に特有のものである必要はありません。
フルテキスト検索や他の検索エンジン(Sphinx、Solr、Luceneなど)などの他の手法を使っても同様の結果が得られることは知っていますが、このユースケースでは特にテキストが必要ですから前処理する必要があります。レコードにタグを付けることを検討しています。
投票している人へこれは、誰かがなぜ私に教えてくれる?これは非常に有効なユースケースとプログラミングの質問です。スタックオーバーフローの範囲を超えたアーキテクチャの議論ですか? –