algoritmo machine learning

Il Machine learning per l’analisi delle offerte di lavoro

, ,

Uno dei punti cruciali nel processo che favorisce l’occupazione è quello dell’incontro tra domanda e offerta. Ma quale può essere il ruolo dei Big data, in questa prospettiva? Ce ne parla Marco Fattore, docente dell’Università degli Studi di MilanoBicocca.

Il processo di incontro tra domanda e offerta è sempre stato un elemento di debolezza del sistema pubblico italiano: di fatto è ancora fortemente legato al passaparola o a società specializzate, che operano a diversi livelli di competenze e di ‘occupabilità’.

big data cvNel contempo, tuttavia, curriculum vitae, posizioni lavorative aperte, richieste di impiego e offerte di lavoro vengono veicolate sul web e Internet sta diventando, in un certo senso, il ‘marketplace’ del lavoro che rappresenta un’enorme fonte di informazione e di osservazione sulle dinamiche del mercato del lavoro, in particolare dal lato della domanda e sull’emergere di nuove occupazioni.

Per dare un’idea delle possibilità offerte dall’uso dei dati web, descrivo nel seguito un interessante progetto condotto da un gruppo di ricerca dell’Università di MilanoBicocca, sull’analisi delle offerte di lavoro (qui intese come usuale nel linguaggio comune, come posizioni aperte e ricercate), sul web.

Obiettivo primario del progetto è costruire un processo continuo di monitoraggio delle offerte di lavoro disponibili su Internet in diversi Paesi europei (Germania, Irlanda, Italia, Regno Unito e Repubblica Ceca), classificando i testi delle offerte in accordo con la tassonomia ufficiale ISCO (International Standard Classification of Occupations; la tassonomia, al livello di dettaglio scelto nel progetto, prevede più di 400 voci).

Un team di esperti ha identificato i principali siti web nazionali contenenti offerte di lavoro; questi sono stati poi monitorati settimanalmente, da giugno a settembre 2015, per estrarne i contenuti. Complessivamente, sono state estratte circa 1,8 milioni di offerte, al netto dei duplicati.

annunci di lavoro webTecnicamente, l’obiettivo finale del progetto è quello di costruire un classificatore, basato su algoritmi di Machine learning, in grado di assegnare la corretta classe ISCO a ciascuna offerta di lavoro, sulla base del la sua descrizione testuale.

Con questo obiettivo, circa 50mila offerte tra quelle scaricate sono state preclassificate da esperti, in modo da ottenere un insieme sul quale costruire concretamente il classificatore. Questo insieme è stato a sua volta suddiviso in una parte (circa il 75% dei casi) dedicata al cosiddetto ‘training’ del classificatore (cioè alla fase in cui l’algoritmo ‘impara’ i criteri di classificazione dai dati) e in una parte (il rimanente 25%) dedicata alla fase di test e di valutazione delle prestazioni del classificatore precedentemente ‘allenato’.

Ciascuna offerta di lavoro è stata quindi descritta in termini di frequenze di sequenze di parole (tecnicamente dette ‘ngrammi’) e il classificatore è stato allenato per associare la corretta classificazione ISCO alle offerte descritte mediante tali frequenze. Una volta testato e validato, il classificatore è stato in grado di individuare, per esempio: le tipologie di offerte più diffuse, a livello nazionale e regionale; le dinamiche stagionali nelle posizioni aperte; le occupazioni più richieste per tipo di settore economico.

È chiaro che un processo di classificazione di questo tipo, una volta temporalmente esteso, può consentire il monitoraggio dei trend del mercato del lavoro e delle differenze tra i mercati nazionali e subnazionali e, cosa particolarmente interessante, può anche mettere in evidenza l’emergere di occupazioni nuove (tipicamente caratterizzate dall’essere trasversali e affini a più aree tematiche).

Quando algoritmi di Machine learning e processi di analisi testuale saranno ‘commodity’ del web, sarà quindi possibile conoscere e monitorare il mercato del lavoro, nonché muoversi al suo interno, in modo molto più efficiente.

Certamente la complessità di questi processi non consente attualmente una loro implementazione ‘standard’, ma la sempre maggiore disponibilità di dati e il progressivo affinarsi di esperienze ‘sperimentali’ come quella descritta in precedenza, segnano la strada.

Con tutto ciò, il problema del ‘recruiting’ non potrà essere certo automatizzato; soft skill e capacità personali –elementi cruciali per il lavoro– possono essere valutate solo dentro una relazione diretta e non sono certo desumibili in modo semplice da informazioni presenti sul web.


Filomena Maggino

Professore di Statistica Sociale – Università di Roma La Sapienza

© 2018 ESTE Srl - Via A. Vassallo, 31 - Milano - TEL: 02 91 43 44 00 - FAX: 02 91 43 44 24 - info@este.it - P.I. 00729910158
logo sernicola sviluppo web milano