S'inscrire

Analyse statistique des données de grande dimension et massives (big data)

Environnement scientifique et technique de la formation

MAP5 - UMR 8145

RESPONSABLES

Charles BOUVEYRON

Professeur

UMR 8145

Pierre LATOUCHE

Maître de conférences

EA 4543

LIEU

PARIS (75)

ORGANISATION

3 jours
De 5 à 10 stagiaires

COÛT PÉDAGOGIQUE

1200 Euros

A L'ISSUE DE LA FORMATION

Evaluation de la formation par les stagiaires
Envoi d'une attestation de formation

DATE DU STAGE

17004 : du mercredi 07/06/2017 au vendredi 09/06/2017

Janvier Février Mars Avril
Mai Juin
17004
Juillet Août
Sept. Oct. Nov. Déc.

OBJECTIFS

- Apprendre à synthétiser et extraire l'information de masses de données ou de données de grande dimension
- Maîtriser les outils modernes de statistique pour l'analyse et la prise de décisions
- Savoir mettre en œuvre les techniques récentes avec le logiciel R

PUBLIC

Statisticiens, analystes de données, data miners, actuaires, chimiomètres, etc.

PRÉREQUIS

- Connaissances de base en statistique inférentielle et analyse de données (niveau Bac + 4 / 5)
- Connaissances minimale du logiciel R

PROGRAMME

L'augmentation continue des capacités de mesure et le développement de nouveaux usages des données (open data, réseaux sociaux, Twitter... ) font qu'il est de plus en plus nécessaire de disposer d'outils statistiques capables de résumer et d'extraire l'information contenue dans les données. Cependant, la nature même des données modernes (grande dimension, masse de données) n'autorise pas l'utilisation de la plupart des méthodes statistiques classiques (tests, régression, classification). En effet, ces méthodes ne sont pas adaptées à ces conditions spécifiques d'application et souffrent en particulier du fléau de la dimension.

Seront présentés les outils statistiques récents permettant d'analyser les données modernes ainsi que leur mise en œuvre dans des situations réalistes à l'aide du logiciel R.

Les thèmes suivants seront abordés :
. régression en grande dimension : régularisation, méthodes sparses, cas où n est plus petit que p
. clustering de masse de données : méthodes online, modèle de mélange
. classification des données de grande dimension : méthodes de sous-espaces, sélection de variables, visualisation

La mise en œuvre des méthodes se fera à l'aide de paquets (gratuits) pour le logiciel R. L'accent sera mis sur l'interprétation des résultats et les méthodes seront mises en œuvre sur des données réelles provenant de domaines d'application variés (chimiométrie, astrophysique, spectrométrie de masse, biologie, finance... )

Alternance de cours (15 h) et de TD (6 h)

EQUIPEMENT

Les stagiaires apportent leur ordinateur. Les logiciels nécessaires à la formation sont installés en début de stage.

Choisir une formation

Choisir un autre domaine

Contactez-nous
par téléphone
01 69 82 44 55
ou par
+ d'infos