L'organisme de formation continue du CNRS

Accueil > Données, connaissances, apprentissage > Apprentissage statistique : théorie et application

Apprentissage statistique : théorie et application

Environnement scientifique et technique de la formation

Laboratoire de biométrie et biologie évolutive

- UMR 5558
RESPONSABLES

Laurent JACOB

Chargé de recherche

UMR 5558

Franck PICARD

Directeur de recherche

UMR 5558

LIEU

LYON (69)

ORGANISATION

3 jours
De 4 à 10 stagiaires
TD encadrés par 1 intervenant pour 5 stagiaires maximum

COÛT PÉDAGOGIQUE

1450 Euros

A L'ISSUE DE LA FORMATION

Evaluation de la formation par les stagiaires
Envoi d'une attestation de formation

DATES DES SESSIONS

Les informations indiquées pour cette page sont valables pour la première session à venir.
Avant de s'inscrire à une autre session, télécharger son programme car des modifications mineures peuvent y avoir été apportées.

20005 : du lundi 16/11/2020 au mercredi 18/11/2020

21001 : du lundi 15/11/2021 au mercredi 17/11/2021

2020
Janvier Février Mars Avril
Mai Juin Juillet Août
Sept Oct Nov
20005
Déc
2021
Janvier Février Mars Avril
Mai Juin Juillet Août
Sept Oct Nov
21001
Déc
OBJECTIFS
-

Comprendre les fondements théoriques de l'apprentissage statistique


-

Choisir les outils adaptés à ses objectifs à la lumière de cette théorie


-

Savoir mettre en oeuvre ces outils sur des grandes masses de données

PUBLICS
Chercheurs ou ingénieurs en science des données / statistiques
Afin d'adapter le contenu du stage aux attentes des stagiaires, un questionnaire téléchargeable ICI devra être complété et renvoyé au moment de l'inscription.
PRÉREQUIS
Bac + 4 minimum, connaissances de base en algèbre linéaire, probabilités, statistique et programmation (R et Matlab)
PROGRAMME
L'augmentation de la quantité de données disponibles motive le développement de méthodes permettant leur analyse et leur exploitation. Un obstacle majeur rencontré lors de cette exploitation est la grande dimension des données : malgré l'augmentation du nombre d'observations (échantillons biologiques, images, textes), ce dernier reste petit devant la complexité de leur description (millions de mutations dans un génome ou de pixels dans une image). Un second obstacle technique est le passage à l'échelle de méthodes initialement conçues pour des petits jeux de données.
Cette formation propose aux professionnels confrontés à ce type de données d'acquérir des connaissances empruntant aux statistiques, à l'apprentissage et à l'optimisation et permettant de comprendre et de surmonter ces obstacles.
La première partie de la formation s'attachera à donner un cadre théorique justifiant les méthodes présentées, permettant de les comparer systématiquement et de comprendre pourquoi et quand elles fonctionnent. Sera ensuite constituée une boîte à outils permettant de faire face aux différents problèmes rencontrés en data science : supervisé / non-supervisé, non-linéaire, données massives.

- Fondamentaux : théorie de l'apprentissage statistique, sur-apprentissage, apprentissage supervisé, régression ridge, support vector machine (SVM), validation
- Optimisation pour l'apprentissage statistique : optimisation convexe, non lisse, algorithmes proximaux, optimisation stochastique
- Propriétés statistiques du Lasso : propriétés de sélection de variables, consistances, calibration de pénalités
- Apprentissage non supervisé : clustering, analyse en composantes principales
- Méthodes non-linéaires : méthodes à noyaux, réseaux de neurones
Alternance de cours (13,5 h) et de travaux dirigés (7,5 h)
EQUIPEMENT
Un ordinateur sera mis à disposition de chaque stagiaire.
INTERVENANTS
L. Jacob, N. Pustelnik, F. Picard (chercheurs) et C. Marteau (professeur)