NLPでスキル、認定、職歴などのさまざまなセクションを持つ履歴書からコンテンツを抽出し、そのカテゴリごとにタグ付けしたいと考えています。私はさまざまな句読点でテキストを抽出するための基本的なルールを書くことができますが、場合によっては機能しない場合もあります。この場合、Automatic segmentationのヘルプが表示されます。この問題を解決する適切なアプローチは何ですか?文書からのコンテンツの抽出
SKILL SET
Machine learning, Deep learning, Python, Julia, NLP
CERTIFICATIONS
Coursera: R Programming, The Data Scientist Toolbox 2015
Galvanize: Data science & big data analytics 2017
PROFESSIONAL TRAINING
MIT Professional education program in MACHINE LEARNING and text processing
PROFESSIONAL RECOGNITIONS
Microsoft Cheers Award, Microsoft Excellence award
PROFESSIONAL ROLES AND RESPONSINBILITIES
Building scalable system architecture for distributed applications
Training junior developers in advance ML
Prototyping and testing data driven products
こんにちは@Bhuvanesh、問題は、レジュームからコンテンツを抽出し、カテゴリをレジュームしないようにすることです。 – joel
@joeセクションのタイプ(したがってその番号)が固定されている場合は、セクションタイトルを(いくつかのベクトル表現に基づいて)クラスタ化できます。ラベル付きデータを収集する場合は、分類子を訓練することもできます。 – dada