Linguistique computationnelle et IA

Responsables de parcours : François Yvon (CNRS / Sorbonne Université) et Benoît Crabbé (Université Paris Cité)
Capacité d’accueil: 10

 

L’étudiant en master doit s’inscrire à l’une des filières. Ces filières garantissent l’acquisition d’une expertise authentique dans les concepts, méthodes et techniques spécifiques à chaque discipline, renforçant la clarté des compétences associées au diplôme. Le programme établit une base culturelle commune dès la première année (M1) grâce à un tronc commun et des cours d’introduction aux différentes disciplines. En deuxième année (M2), la majorité des cours sont entièrement interdisciplinaires et ouverts aux étudiants de toutes les filières. Notre objectif est de former des cognitivistes dotés à la fois d’une expertise disciplinaire solide et d’une culture interdisciplinaire large, éléments essentiels pour favoriser une collaboration significative entre les disciplines.

Pendant le M2, tous les étudiants effectueront un long stage au cours du 2ème semestre. Pendant le 1er semestre, ils se prépareront pour le stage. En passant une journée dans le laboratoire (ou un laboratoire partenaire dans le cas d’un stage hors de Paris), ils travailleront sur la bibliographie et clarifieront la question de recherche et les méthodes et tests statistiques prévus. À la fin du 1er semestre du M2, les étudiants soumettront un document de pré-inscription à leurs directeurs de filière, et présenteront pendant 8 minutes devant un jury à la fin du mois de janvier. Cela est crucial pour en apprendre davantage sur la crise de la reproductibilité et les bonnes pratiques pour la surmonter. À la fin du 2ème semestre, les étudiants soumettront un rapport complet et présenteront devant un jury interdisciplinaire le travail qu’ils ont réalisé pendant leur stage.

Spécifique à ce parcours

Le parcours Linguistique computationnelle et Intelligence Artificielle propose une formation complète aux modèles et méthodes du traitement automatique des langues, depuis les fondements linguistiques et algorithmiques des réseaux de neurones profonds jusqu’aux applications des grands modèles de langue pour l’accès à l’information, les systèmes de dialogue et la traduction automatique. Positionné au sein du master cog-SUP de Sciences Sognitives, il offre également une ouverture unique vers la psycholinguistique et la neurolinguistique computationnelles, permettant d’explorer les interfaces entre language, perception, mémorisation et action, avec des applications en robotique et en interaction-humain machine. Au terme de leur formation, les étudiants disposeront d’une compréhension approfondie des concepts, méthodes et techniques du traitement des langues et de l’intelligence artificielle et de leur mise en oeuvre dans des systèmes avancés de traitement de l’information langagière.

Les cours proposés couvrent un large éventail de thématiques, depuis les modélisation linguistiques en phonologie, syntaxe et sémantique, les fondements algorithmiques du traitement des langues, du traitement de la parole et de l’apprentissage profond — pour la première année; la seconde année offrant des approfondissements vers la psycholinguisique et la linguistique outillées d’une part; d’autre part vers des domaines plus applicatifs comme la traduction automatique, la fouille de textes, systèmes de dialogues ou encore la recherche d’information. Les étudiants peuvent également choisir parmi des cours au menu d’autres Masters proposés par les Universités partenaires pour enrichir et/ou spécifier davantage leurs connaissances.

Le parcours Linguistique Informatique offre donc une opportunité unique d’acquérir une expertise approfondie dans les domaines de la modélisation et de l’expérimentation en traitement automatique des langues, thème central de l’intelligence artificielle générative, et dont les applications ont un impact majeur dans les transitions numériques actuelles qui bouleversent nos sociétés.

Les étudiants diplômés de ce programme seront susceptibles d’occuper des positions au sein d’équipes de recherche et développement en intelligence artificielle dans le secteur public ou privé (des grands acteurs internationaux aux PME/TPE et startups) ainsi que dans le secteur de la recherche en linguistique computationnelle. Leur formation les préparera à collaborer efficacement dans des environnements hautement multidisciplinaires.

Stages de M1

Sujet : Les stages doivent porter sur un sujet de linguistique informatique. Nous attendons des étudiants qu’ils entrent en contact avec tous les aspects de l’étude en linguistique informatique : de la question de recherche et de la conception expérimentale à la collecte de données, l’analyse et la rédaction d’articles.
Crédits : 6 ECTS pendant le 2ème semestre (13 jours en laboratoire)
Évaluation : Rapport complet (20 pages max) et présentation orale à la fin du 2ème semestre.

Mots Clés: Linguistique Informatique; Apprentissage Automatique; Traitement Automatique des Langues; Recherche d’Information; Traduction Automatique; Fouille de Textes; Modèles de Langue;

M1 – Semestre 1

Tronc commun du master

CORE-4Ethics in cognitive sciences (3 ECTS), Katie Evans, Anouk Barberousse, Raja Chatila

Options du Master: 3 à 6 ECTS parmi ces cours

Experimental approach (3 ECTS), Christophe Pallier
CORE-2 Data camp (3 ECTS), Christophe Pallier, Mehdi Khamassi
PROG-101Introduction to programming (3 ECTS), Sylvain Charron

Tronc commun du parcours

Introduction au Traitement Automatique des Langues (in French) (3 ECTS), Guillaume Wisniewski
LING-301 Machine Learning for Natural Language Processing : the fundamentals (6 ECTS), Marie Candito

Options : 6 à 9 ECTS parmi ces cours

NEURO-101 Introduction to Cognitive Neurocience (3 ECTS), Chloé Berland, Pierre Bourdillon
PHILO-101 Scientific reasoning (6 ECTS), Anouk Barberousse
NCIA-101 Introduction to Computational Neuroscience and AI (3 ECTS), Mehdi Khamassi, Benoît Girard
PSYCH-101 Introduction to Cognitive Psychology (3 ECTS), Thérèse Collins
LING-102 Introduction to general linguistics (3 ECTS), Otto Zwartzes (will open in 2026)

Options : 6 ECTS parmi ces cours

Numerical methods for NLP (3 ECTS), Benoît Crabbé
LING-202 Phonetics (3 ECTS), Hi-Yon Yoo
LING-203 Phonology (3 ECTS), Jalal Al Tamimi
LING-204 Morphology (3 ECTS), Olivier Bonami
LING-205 Syntax (3 ECTS), Anne Abeille
LING-206 Semantics (3 ECTS), Lucia Tovena
LING-207 Linguistic Typology (3 ECTS), Otto Zwartzes (will open in 2026)

M1 – Semestre 2

Tronc commun du master

Literature (Meta-)review (3 ECTS), Jonathan Vacher

Options du Master: 3 à 6 ECTS parmi ces cours

Experimental approach (3 ECTS), Sylvain Charron
CORE-2 Data camp (3 ECTS), Christophe Pallier, Mehdi Khamassi
PROG-202Human experimental workshop (3 ECTS), Mark Wexler

Tronc commun du parcours

LING-208 Theory and pratice of large language models (6 ECTS), Guillaume Wisniewski
LING-209 Computational semantics (6 ECTS), Timothée Bernard
LING-210 Traitement de la parole (in French) (6 ECTS), Nicolas Obin (will open in 2026)

Options : 3 à 6 ECTS parmi ces cours

INT-201 Internship (1 jour/semaine) (6 ECTS)
LING-211 Phonological Analysis (3 ECTS), Hi-Yon Yoo
LING-212 Experimental phonology (3 ECTS), Jalal Al Tamimi
LING-213 Theoretical morphology (3 ECTS), Olivier Bonami
LING-214 Topics in minimalist syntax (3 ECTS), Caterina Donati
LING-215 Constraint based syntax (3 ECTS), Anne Abeille
LING-216 Semantics Analysis (3 ECTS), Lucia Tovena
LING-217 Pragmatics (3 ECTS), Lisa Bruneti
Base du Traitement des images (in French) (6 ECTS), Dominique Béréziat
INFO-SU-4 Interfaces Humain-Machine (in French) (6 ECTS), Gilles Bailly, Baptiste Caramiaux, François Bouchet
Intelligence Artificielle et Manipulation Symbolique de l’Information (6 ECTS), Christophe Marsala, Gauvain Bourgne, Jean-Gabriel Ganascia

M2 – Semestre 3

Tronc commun du master

INT-301 Internship preparation (1 jour/semaine) (6 ECTS)

Options : 24 ECTS parmi ces cours

LING-218 Computational language modeling and cognition (6 ECTS), Benoit Crabbé
LING-219 Topic Modeling (3 ECTS), François Yvon
LING-220 Multilingual natural language processing and machine translation (3ECTS), Guillaume Wisniewski
LING-221 Advanced topics in natural language processing (3 ECTS), Timothée Bernard
LING-222 Current topics in natural language processing and society (3ECTS), Marie Candito
LING-223 Broadening in data science and NLP 1 (3ECTS), Marie Candito
LING-224 Broadening in data science and NLP 2 (3 ECTS), Marie Candito
LING-225 Broadening in data science and NLP 3 (3 ECTS), Marie Candito
LING-226 Topics in phonological theories (3 ECTS), Ioana Chitoran
LING-227 Topics in prosody (3 ECTS), Hiyon Yoo
LING-228 Advanced morphology (3 ECTS), Olivier Bonami
LING-229 Theory driven experimental syntax (3 ECTS), Hiyon Yoo
LING-230 Advanced experimental syntax (3 ECTS), Anne Abeillé
LING-231 Advanced semantics and pragmatics (3 ECTS), Lucia Tovena
LING-232 Techniques in experimental and computational phonology (3 ECTS), Jalal Al Tamimi
LING-233 Experimental design and Psycholinguistics (3 ECTS), Barbara Hemforth
LING-234 Phonetics (3 ECTS), Hi-Yon Yoo
LING-235 Phonology (3 ECTS), Jalal Al Tamimi
LING-236 Morphology (3 ECTS), Olivier Bonami
LING-237 Syntax (3 ECTS), Caterina Donati
LING-238 Semantics (3ECTS), Lucia Tovena
LING-239 Linguistic Typology (3 ECTS), Otto Zwartzes
MVA-1 Algorithms for speech and natural language processing (6 ECTS), Emmanuel Dupoux
2 Large Language Models (3 ECTS), Benjamin Piwowarski
INFO-SU-7 AMAL: Advanced MAchine Learning & Deep Learning (6 ECTS), Patrick Gallinari

 

M2 – Semestre 4

Tronc commun du master

INT-401 Internship (temps plein) (30 ECTS)