S'inscrire

Utilisation des fonctionnalités du langage R pour l'analyse et l'interprétation de grands ensembles de données biologiques

Environnement scientifique et technique de la formation

Institut de biologie intégrative de la cellule - UMR 9198

RESPONSABLES

Marie-Héléne MUCCHIELLI

Maîtresse de conférences

UMR 9198

Jean-Christophe AUDE

Chercheur

UMR 9198

LIEU

GIF-SUR-YVETTE (91)

ORGANISATION

3 jours
De 4 à 10 stagiaires
TP encadrés par 1 intervenant pour 5 stagiaires maximum

COÛT PÉDAGOGIQUE

1100 Euros

A L'ISSUE DE LA FORMATION

Evaluation de la formation par les stagiaires
Envoi d'une attestation de formation

DATE DU STAGE

19017 : du mercredi 22/05/2019 au vendredi 24/05/2019

Janvier Février Mars Avril
Mai
19017
Juin Juillet Août
Sept. Oct. Nov. Déc.

OBJECTIFS

- Apprendre à manipuler de grands ensembles de données biologiques
- Savoir extraire les informations les plus significatives d'un tableau de données
- Savoir regrouper des données et savoir les visualiser

PUBLIC

Toute personne confrontée à l'exploitation de données biologiques

PRÉREQUIS

Connaissances de base en statistiques

PROGRAMME

La biologie met en œuvre un nombre croissant de techniques qui produisent de grandes quantités de données. Elles laissent alors l'expérimentateur souvent désemparé face à une masse d'informations qu'il ne peut interpréter facilement sans outil d'analyse approprié. L'objectif de cette formation est de fournir aux participants une liste non exhaustive de techniques simples leur permettant de manipuler de grands ensembles de données obtenues dans différentes conditions expérimentales afin d'en extraire le maximum d'informations (par exemple des données de transcriptomique ou de protéomique).

Cette formation comprend des parties théoriques (20 % du temps) auxquelles sont associées des exercices d'application utilisant les fonctionnalités du langage R (80 % du temps).

Elle présentera :
- le langage R et ses principales commandes, l'aide en ligne et la documentation disponible
- des outils de visualisation et d'analyse uni et bivariée : mesure de centralité et de dispersion, tests statistiques paramétriques et non paramétriques (test t, Shapiro, corrélation, Chi2)
- des outils permettant d'extraire les principales informations dans un tableau (PCA, FCA), modèle linéaire, loglinéaire et quadratique
- des outils de classification non supervisée : notion de distance, classification hierarchique, méthode des nuées dynamiques
- des outils de classification supervisée : analyse discriminante linéaire et quadratique, arbre de décision, RandomForest, KNN

La fin du stage (2 h) sera consacrée à un atelier pédagogique d'analyse et de réflexion sur les types de données des stagiaires et la manière de les analyser.

EQUIPEMENT

Un ordinateur sera mis à la disposition de chaque stagiaire.
+ d'infos