私は、ユーザーの職業スキルを取り入れ、それらのスキルに基づいて最も理想的なキャリアを提案する、小さな個人プロジェクトに取り組んできました。私はこれを達成するために求人リストのデータベースを使用します。現時点では、次のようにコードが動作する:TF-IDFとコサインの類似点の代替方法(さまざまな形式のドキュメントを比較)
1)上場
2に記載されているスキルを抽出するために、リストの各ジョブのテキストを処理)、各キャリア(例えば「データアナリスト」)については、コンバイン一つの文書
3)私はランクに使用すべき方法はわからない、キャリア文書内この後
を各スキルのTF-IDFを計算にそのキャリアのための求人情報の処理されたテキストユーザーのスキルのリストに基づいたキャリア私が見てきた最も一般的な方法は、ユーザーのスキルを文書として扱い、次にスキル文書のTF-IDFを計算し、コサイン類似度のようなものを使用してスキル文書とそれぞれの類似度を計算することですキャリア文書。
同じフォーマットの2つのドキュメントを比較するとき、コサインの類似性が最もよく使用されるため、これは理想的な解決策ではありません。その点では、TF-IDFはユーザのスキルリストにまったく適用されない適切なメトリックのようには見えません。たとえば、ユーザーがリストにスキルを追加すると、各スキルのTFが削除されます。実際には、スキルの頻度がユーザーのスキルリストにどのようなものであるかは気にしません。スキルがあることを気にしています(スキルをどれだけうまく知っているか)。 、キャリア文書
2)の場合にはそのスキルのTF-IDFを計算)
1ユーザーが持っている各スキルについて:
次の操作を行うことであろう、より良いメトリックのように思えます上記の合計に基づいて、各キャリア、ユーザーのスキル
3のすべてのためにTF-IDFの結果を合計)ランクのキャリアは
私はここで右の線に沿って考えていますか?もしそうなら、これらのラインに沿って動作するアルゴリズムはありますか?単純な合計よりも洗練されていますか?助けてくれてありがとう!
リンクをいただきありがとうございます。簡単に見てみると、私が探していたものと思われます。私はあなたのソリューションをupvoted、しかし私はそれが表示するための十分な評判を持っていない。再度、感謝します! –
歓迎します;) – Alikbar