L’analyse de CV, aussi appelée parsing ou extraction sémantique, consiste à convertir un document en forme libre sur lequel figure un CV en des renseignements structurés ou au format XML, de manière à ce que ces informations puissent être stockées, synthétisées ou traitées par un ordinateur.
Les agences de recrutement utilisent des outils d’analyse de CV qui leur permettent d’automatiser le stockage et l’analyse des données contenues dans les CV. Cela permet aux recruteurs d’économiser des heures de travail en leur évitant de traiter manuellement chacune des candidatures et des CV qu’ils reçoivent.
Les CV sont le plus souvent reçus au format MS Word et PDF. Bien que ces formats facilitent la lecture et la compréhension pour les humains, il est assez difficile à interpréter pour un ordinateur. Contrairement à nos cerveaux qui saisissent ou recréent le contexte en comprenant la situation et en prenant en compte les mots qui l’entourent, un ordinateur voit un CV comme une longue séquence de lettres, de nombres et de signes de ponctuation. Un logiciel de parsing est un programme permettant d’analyser un document et d’en extraire les éléments qui reflètent ce que le rédacteur/la rédactrice a véritablement voulu dire. Dans le cas d’un CV, ces informations concernent les compétences, l’expérience professionnelle, la formation, les coordonnées et les résultats.
Aussi étonnant que cela puisse paraître, l’extraction de données et leur interprétation représentent des tâches difficiles pour un ordinateur, car :
- La langue est infiniment variée. Il existe, par exemple, des centaines de manières d’écrire une date, et un nombre incalculable de façons de décrire en quoi consistait votre dernier emploi. Un outil d’analyse de CV capture toutes ces différentes manières d’écrire la même chose à l’aide de règles et d’algorithmes statistiques complexes.
- La langue est ambiguë. Le même mot ou la même phrase peut avoir différentes significations selon le contexte.
Par exemple :
- Le sigle « MD » peut avoir plusieurs sens : « Médecin » (« Medical Doctor ») ; au Royaume-Uni, on penserait immédiatement à « Directeur général » (« Managing Director ») ; ou si vous connaissez bien la région du Mid-Atlantic aux États-Unis, vous pourriez songer au« Maryland ».
- Un nombre à 4 chiffres peut faire partie d’un numéro de téléphone, une adresse postale, un numéro de sécurité sociale, un code postal suisse, une année ou la version d’un progiciel.
- Le terme « Chef de projet » peut indiquer que le rédacteur/la rédactrice occupait en effet ce poste, mais il peut avoir un autre sens dans un contexte tel que « J’en référais au Chef de projet ».
La seule façon pour un logiciel de parsing de lever ces ambiguïtés est de comprendre et d’analyser le contexte dans lequel ces termes sont utilisés. Un bon extracteur de CV utilise des règles et des algorithmes statistiques complexes pour être « intelligent ».
En savoir plus sur le parseur de CV DaXtra.