TF-IDFとコサインの類似点の代替方法（さまざまな形式のドキュメントを比較）

私は、ユーザーの職業スキルを取り入れ、それらのスキルに基づいて最も理想的なキャリアを提案する、小さな個人プロジェクトに取り組んできました。私はこれを達成するために求人リストのデータベースを使用します。現時点では、次のようにコードが動作する：TF-IDFとコサインの類似点の代替方法（さまざまな形式のドキュメントを比較）

1）上場

2に記載されているスキルを抽出するために、リストの各ジョブのテキストを処理）、各キャリア（例えば「データアナリスト」）については、コンバイン一つの文書

3）私はランクに使用すべき方法はわからない、キャリア文書内この後

を各スキルのTF-IDFを計算にそのキャリアのための求人情報の処理されたテキストユーザーのスキルのリストに基づいたキャリア私が見てきた最も一般的な方法は、ユーザーのスキルを文書として扱い、次にスキル文書のTF-IDFを計算し、コサイン類似度のようなものを使用してスキル文書とそれぞれの類似度を計算することですキャリア文書。

同じフォーマットの2つのドキュメントを比較するとき、コサインの類似性が最もよく使用されるため、これは理想的な解決策ではありません。その点では、TF-IDFはユーザのスキルリストにまったく適用されない適切なメトリックのようには見えません。たとえば、ユーザーがリストにスキルを追加すると、各スキルのTFが削除されます。実際には、スキルの頻度がユーザーのスキルリストにどのようなものであるかは気にしません。スキルがあることを気にしています（スキルをどれだけうまく知っているか）。、キャリア文書

2）の場合にはそのスキルのTF-IDFを計算）

1ユーザーが持っている各スキルについて：

次の操作を行うことであろう、より良いメトリックのように思えます上記の合計に基づいて、各キャリア、ユーザーのスキル

3のすべてのためにTF-IDFの結果を合計）ランクのキャリアは

私はここで右の線に沿って考えていますか？もしそうなら、これらのラインに沿って動作するアルゴリズムはありますか？単純な合計よりも洗練されていますか？助けてくれてありがとう！

出典

2017-01-02 Richard Knoche

説明した2番目の方法が有効です。しかし、この種の問題を解決するより良い方法があります。まず、言語モデルについて少し知って、ベクトル空間モデルから離れるべきです。 2番目の手順では、エキスパートの検索/プロファイリングと同様の問題の種類に基づいて、ソリューションを実装するためのベースライン言語モデルフレームワークを学習する必要があります。少し変更してA language modeling framework for expert findingを実装して、数式を問題に適合させることができます。また、On the assessment of expertise profilesと読むことで、上記のフレームワークによるエキスパートプロファイリングの理解を深めることができます。 Balog's blogには、専門家の発見/プロファイリングに関する良いアイデア、リソース、プロジェクトがあります。

出典

2017-01-03 06:50:32 Alikbar

リンクをいただきありがとうございます。簡単に見てみると、私が探していたものと思われます。私はあなたのソリューションをupvoted、しかし私はそれが表示するための十分な評判を持っていない。再度、感謝します！ –

歓迎します;） – Alikbar

TF-IDFとコサインの類似点の代替方法（さまざまな形式のドキュメントを比較）

答えて

関連する問題