2017-12-18 20 views
0

NLPでスキル、認定、職歴などのさまざまなセクションを持つ履歴書からコンテンツを抽出し、そのカテゴリごとにタグ付けしたいと考えています。私はさまざまな句読点でテキストを抽出するための基本的なルールを書くことができますが、場合によっては機能しない場合もあります。この場合、Automatic segmentationのヘルプが表示されます。この問題を解決する適切なアプローチは何ですか?文書からのコンテンツの抽出

SKILL SET 
    Machine learning, Deep learning, Python, Julia, NLP 

CERTIFICATIONS 
Coursera: R Programming, The Data Scientist Toolbox 2015 
Galvanize: Data science & big data analytics 2017 

PROFESSIONAL TRAINING 
    MIT Professional education program in MACHINE LEARNING and text processing 

PROFESSIONAL RECOGNITIONS   
    Microsoft Cheers Award, Microsoft Excellence award 

PROFESSIONAL ROLES AND RESPONSINBILITIES 
    Building scalable system architecture for distributed applications 
    Training junior developers in advance ML 
    Prototyping and testing data driven products 

答えて

0

私は履歴書にある共通の見出しを検索し、その語が存在するかどうかに基づいてテキストをセグメント化する辞書を使用しました。このソリューションには、一般的に履歴書にあるさまざまなセクションの辞書が必要です。

0

あなたのユースケースでは、履歴書をそのカテゴリ別に分割する場合です。 教師なしクラスタリングマシン学習アルゴリズムを試すことができます。辞書やルールを作成するには、準備に時間が必要です。
私はあなたのユースケースを実現するには、以下の手順をお勧めします:

  1. は、履歴書のデータベースを作成します。など開発、DevOpsチーム、データサイエンティスト、 フルスタック、
  2. 列車K-手段をモデル
  3. アップロードユーザーの履歴書とユーザクラスタ、重心からの距離を予測する、など
  4. 表示結果
+0

こんにちは@Bhuvanesh、問題は、レジュームからコンテンツを抽出し、カテゴリをレジュームしないようにすることです。 – joel

+0

@joeセクションのタイプ(したがってその番号)が固定されている場合は、セクションタイトルを(いくつかのベクトル表現に基づいて)クラスタ化できます。ラベル付きデータを収集する場合は、分類子を訓練することもできます。 – dada

関連する問題