Statistique

Description du programme

La statistique concerne l’élaboration et l’emploi de méthodes mathématiques et informatiques pour la collecte, l’analyse et l’interprétation de données visant à soutenir la recherche scientifique, la prise de décision éclairée et la gestion des risques. Elle fait appel à un large éventail d’outils, allant de la théorie des probabilités aux techniques de calcul intensif sur ordinateur. Parmi les principaux domaines de recherche des statisticiens du réseau de l’ISM, notons

  • la modélisation de la dépendance et l’analyse multivariée
  • la modélisation des données de grande dimension
  • l’analyse de survie
  • l’analyse de valeurs extrêmes
  • l’apprentissage machine
  • l’apprentissage statistique
  • la statistique directionnelle
  • la statistique non paramétrique
  • la théorie des processus empiriques
  • le calcul statistique
  • les séries chronologiques
  • les techniques d’enquête
  • l’inférence bayésienne et méthodes MCMC
  • l’inférence causale

La recherche statistique est motivée en grande partie par des collaborations interdisciplinaires. Elle trouve des applications dans de nombreux domaines tels la biologie, les sciences de l’environnement, la finance et l’assurance, les sciences de la santé, l’hydrologie, le marketing et les sciences sociales. Avec l’abondance d’ensembles de données complexes et de grande taille émanant entre autres des médias sociaux et des processus numériques, des transactions financières, de l’astronomie, de la génomique, de la météorologie ou de la mégascience comme le grand collisionneur de hadrons, le traitement et l’analyse de données volumineuses est un enjeu majeur de la statistique moderne.

Membres du programme

Formation

Le programme de statistique fournit aux étudiants gradués l'occasion d'étudier dans ces deux domaines importants de la statistique moderne. Les cours offerts dans ce programme permettront aux étudiants de 2e et 3e cycles de bien se familiariser avec les bases de la statistique mathématique, de la théorie de la décision et la statistique appliquée. De plus, quelques cours sont offerts pour initier les étudiants à des sujets de pointe dans ces domaines.

Ce programme est ouvert à tous les étudiants ayant une base solide en calcul différentiel et intégral, statistique mathématique, analyse numérique ainsi qu'en probabilité (le tout au niveau du 1er cycle). Pour acquérir une bonne formation en théorie de la décision et en statistique mathématique, nous pensons que les étudiants devraient prendre un cours de base en mesure et intégration (pour les étudiants au 3e cycle) et au moins trois cours aux niveaux intermédiaires et avancés.

Cours 2017-18

Automne

Techniques d'exploitation de données (data mining)

Ce cours présente certaines des principales techniques d'analyse de grandes bases de données (data mining). Les technologies de l'intelligence d'affaires permettent aux entreprises, entre autres, d'analyser les données recueillies pour leurs opérations afin de mieux comprendre le comportement de leurs clients dans le but d'aider à anticiper la demande, accroître la rétention ou réduire la fraude. Différentes techniques de l'intelligence d'affaires, parmi les plus utilisées en pratique, seront donc présentées et illustrées à partir d'exemples concrets dans différents domaines de gestion.

Prof. Jean-François Plante & François Bellavance

6-600-09

Institution: HEC Montréal

Analyse multidimensionnelle appliquée

Les entreprises croulent littéralement sous le poids des données qu'elles ont à leur disposition. Ces données contiennent potentiellement une quantité importante d'informations pouvant être bénéfiques à l'entreprise si utilisées correctement. Sous le vocable « data mining », on retrouve différentes techniques statistiques utilisées pour explorer et analyser de grands ensembles de données. Ces techniques ont généralement pour but de développer des modèles prévisionnels, de réduire la taille des données, de faire de la segmentation ou bien de découvrir des associations pertinentes. L'analyse multidimensionnelle est à la base de plusieurs techniques de data mining et est utilisée dans plusieurs domaines de gestion dont le marketing. 

Le but du cours analyse multidimensionnelle est de donner aux étudiants(e)s une formation de base en traitement de données multidimensionnelles. Plusieurs techniques statistiques seront présentées et on insistera surtout sur la compréhension intuitive, l'interprétation correcte et l'utilisation pratique de celles-ci. Par conséquent, l'emploi de concepts mathématiques sera réduit à son minimum et ces derniers ne serviront qu'à faciliter la compréhension des méthodes étudiées. Le logiciel SAS sera utilisé mais aucune connaissance préalable de celui-ci n'est requise. Par contre, une connaissance des concepts et méthodes statistiques (population, échantillon, estimation, test d'hypothèse) de base est requise.

Prof. Laurent Charlin & Denis Larocque

6-602-07

Institution: HEC Montréal

Logiciels statistiques

L'étudiant apprendra à programmer en SAS et en R afin de nettoyer des jeux de données, de les représenter graphiquement et d'en faire une analyse statistique complexe. En plus de maîtriser le code de base de SAS, l'étudiant apprendra la syntaxe du module ODS qui permet de gérer le contenu des sorties. Il apprendra aussi le langage macro de SAS et s'en servira . afin de créer des fonctions permettant des analyses statistiques supplémentaires. En R, l'étudiant apprendra les bases du langage qui lui serviront à faire une analyse statistique des données .. II ·apprendra aussi à écrire des fonctions permettant l'analyse statistique de données et à construire une librairie de fonctions afin de partager les outils d'analyse qu'il aura codés. R et SAS sont basés sur des langages de programmation différents que l'étudiant devra apprendre à maîtriser.

Prof. Sarah Legendre-Thibodeau

6-613-11

Institution: HEC Montréal

Analyse de décision

Ce cours présente les principaux outils d'analyse propres à appuyer les décisions tactiques et stratégiques en présence d'incertitude ou face à de multiples objectifs. Les techniques sont illustrées à partir d'exemples de divers domaines de la gestion et d'études de cas. Les étudiants apprendront à analyser et modéliser les problèmes de décision. Ils se familiariseront à l'utilisation des principales techniques d'aide à la prise de décision et des logiciels spécialisés les implémentant : arbres de décision, simulation de Monte-Carlo, théorie de l'utilité, programmation par objectif, optimisation multicritères, analyse hiérarchique.

Prof. Erick Delage

6-615-09

Institution: HEC Montréal

Analyse et inférence statistique - automne

L'objectif principal du cours est de fournir à l'étudiant les notions fondamentales de l’analyse et de l’inférence statistique ainsi que les méthodes statistiques avancées. En plus des concepts théoriques, ce cours mettra particulièrement l'accent sur les applications pratiques de ces méthodes dans des contextes de recherche.

Prof. Aurélie Labbe

6-619-15

Institution: HEC Montréal

Exploitation de données textuelles et de réseaux sociaux

L'étudiant découvrira les méthodes qui permettent d'analyser automatiquement un corpus de documents par des algorithmes classiques d'exploitation de données. Les textes étant avant tout destinés à la lecture par des humains, l'information qu'ils recèlent n'est pas structurée de manière appropriée à un traitement automatisé. Nous présenterons dans ce cours diverses techniques spécifiques grâce auxquelles un traitement automatisé des documents est possible.

Après avoir suivi ce cours, l'étudiant saura identifier les paramètres appropriés et utiliser de manière appropriée les principaux logiciels disponibles. Le cours est composé de 6 séances de 3 heures durant lesquelles les techniques sont présentées formellement d'abord, puis par l'entremise d'applications.

Prof. Gilles Caporossi

6-621-15

Institution: HEC Montréal

Quantitative risk managment using robust optimisation

Celebrating 15 years of renewed and flourishing interest in the robust optimization (RO) paradigm, this course will introduce students to the means of hedging risks in large managerial decision problems where distribution assumptions cannot be made. More specifically, the students will become acquainted with the main tools that are used in the application of the robust optimization paradigm: convex theory (duality theory, saddle point theorem, Karush-Kuhn-Tucker conditions), data-driven uncertainty sets design, adjustable decision manipulation, tractable reformulation and decomposition algorithms for problems of infinite size. In addition, the course will cover a set of practical applications where the use of such tools is called-for. Applications will be inspired from a diversified range of fields of practice such as logistics, finance, marketing, electrical engineering,  aerospace, data mining, etc.

Prof. Erick Delage

80-624-16A

Institution: HEC Montréal

Complex Networks Analysis

Would it be from social networks (Facebook, twitter for instance), or from their own data (such as email exchanges), organizations have access to important data. This data may have a special structure that prevents it from being fully exploited by classical means. Namely, instead of a description of the observations by a set of charatectritics, relations between observations are used.

In this case, a complex network model is more appropriate to model the information. The size of the data usually makes a visual representation of the network impossible. Since the network structure is hard to preserve when sampling the data, its analysis requires specific techniques.

The goal of this course is to explain the main complex network analysis techniques. Due to the sampling difficulty, analyzing the whole network is often necessary, which involves some computational issues.

This course is aimed at students in data analysis since it provides a new framework for analysing data with an atypical structure, but also in operations research because of the computational issues.

The student will learn to use the main complex networks analysis techniques and will apply them by the mean of free softwares (Gephi or Pajek for example).

Prof. Gilles Caprossi

80-627-17

Institution: HEC Montréal

Machine Learning for Large-Scale Data Analysis and Decision Making

In this course, we will study machine learning models, a type of statistical analysis that focuses on prediction, for analyzing very large datasets ("big data"). In addition to standard models, we will study models for analyzing user behaviour and for decision making. Massive datasets are now common and require scalable analysis tools.  Machine learning provides such tools and is widely used for modelling problems across many fields including artificial intelligence, bioinformatics, finance, marketing, education, transportation, and health.

In this context, we study how standard machine learning models for supervised (classification, regression) and unsupervised learning (for example, clustering and topic modelling) can be scaled to massive datasets using modern computation techniques (for example, computer clusters). In addition, we will discuss recent models for recommender systems as well as for decision making (including multi-arm bandits and reinforcement learning).

Through a course project students will have the opportunity to gain practical experience with the analysis of datasets from their field(s) of interest. A certain level of familiarity with computer programming will be expected.

Prof. Laurent Charlin

80-629-17A

Institution: HEC Montréal

Mathematical Statistics I

Distribution theory, stochastic models and multivariate transformations. Families of distributions including location-scale families, exponential families, convolution families, exponential dispersion models and hierarchical models. Concentration inequalities. Characteristic functions. Convergence in probability, almost surely, in Lp and in distribution. Laws of large numbers and Central Limit Theorem. Stochastic simulation.

Prof. Masoud Asgharian-Dastenaei

MATH 556

Institution: Université McGill

Topics in Probability and Statistics: Dependence modeling through copluas

Copulas are multivariate distributions whose margins are uniform on the interval (0, 1). They provide a handy tool for the modeling of dependence between variables whose distributions are heterogeneous or involve covariates. This allows in particular for the construction of very versatile dependence models that go beyond the multivariate Gaussian distribution. These models are now extensively used in various applications, e.g., in hydrology, finance, insurance, and risk management.

This course will provide an introduction to statistical inference for copula models. The notion of copula and its role in representing dependence will first be explained. A few classical copula models will then be described, along with their properties. Next, it will be shown how estimation and goodness-of-fit testing can be performed using rank-based methods. Diagnostic tools for the detection of dependence and copula selection will also be presented. The methodology is mainly based on the empirical copula process, whose asymptotic behavior will be treated in detail. Advanced topics will be discussed at the end of the course; these include the modeling of extreme-value dependence and strategies for adapting the copula approach to high-dimensional data. Throughout, implementation of the inferential tools in the R project of statistical computing will be shown and illustrated on data from hydrology, finance, and insurance.

Literature:

Prof. Johanna Neslehova

MATH 598

Institution: Université McGill

Advanced Topics in Statistics I: Applied Bayesian Statistics

Prof. Russell Steele

MATH 782

Institution: Université McGill

Analyse statistique multivariée

Étude des distributions échantillonnales classiques: T2 de Hotelling; loi de Wishart; distribution des valeurs et des vecteurs propres; distribution des coefficients de corrélation. Analyse de variance multivariée. Test d'indépendance de plusieurs sous-vecteurs. Test de l'égalité de matrices de covariance. Sujets spéciaux.

Prof. Karim Oualkacha

MAT8081

Institution: Université du Québec à Montréal

Principes de simulation

Nombres pseudo-aléatoires. Principes fondamentaux, méthode d'inversion et méthode du rejet. Lois usuelles univariées discrètes et continues. Vecteurs aléatoires. Techniques de réduction de la variance. Simulation par chaînes de Markov (MCMC). Applications.

Prof. François Watier

MAT8780

Institution: Université du Québec à Montréal

Techniques avancées en programmation statistique R (1 cr)

Le cours traite de la création et la manipulation des objets en R, les trames de données, les fonctions, l'optimisation de code (vitesse, mémoire), l'interface.

Prof.

MAT8186-10

Institution: Université du Québec à Montréal

Séminaire de statistique : Introduction à la statistique spatiale

Ce cours a pour objectif d’introduire des concepts et méthodologies statistiques adéquates en présence de données spatiales. Trois classes de données distinctes seront considérées: la premère concerne l’observation d’un champ aléatoire dans le plan par exemple, comme par exemple l’observation en tout point d’un territoire du niveau de pluie sur un mois. La seconde classe concerne l’observation de données latticielles, comme par exemple l’observation nombre de cas d’une certaine maladie par département Français. Enfin, la troisième concerne l’observation d’un processus ponctuel spatial. L’exemple standard ici est l’observation sur une parcelle donnée des positions aléatoires d’une certaine espèce d’arbres. Ces différentes classes induisent des modèles et méthodologies qui leurs sont propres. C’est donc tout naturellement que ce cours sera divisé en trois parties: 1) Géostatistique 2) Données latticielles (ou sur un réseau) 3) Processus ponctuels spatiaux. Ces trois parties ne seront pas traitées au même niveau, l’accent sera mis (50% du cours) sur la composante processus ponctuels thématique un peu moins enseignée en cycles supérieurs. Les modèles et méthodologies seront discutés mathématiquement et appliqués à des jeux de données simulées et réelles en utilisant le logiciel R.

Prof. Jean-François Coeurjolly

MAT998X-40

Institution: Université du Québec à Montréal

Experimental Designs and Statistical Methods for Quantitative Research in Management

This course has four main objectives: 1) to present the major experimental designs used for research in management and in the behavioral sciences; 2) to familiarize students with the statistical methods and software (e.g. PASW, formerly SPSS) used to analyze experimental data; 3) to interpret and present results from the statistical analyses and discuss the validity and limits of the methods; 4) to understand and to critic the methodology and statistical results of published articles in the research fields of the students.

Prof. François Bellavance

80-667-09

Institution: HEC Montréal

Méthodes avancées d'inférence

Principes d'inférence; estimation ponctuelle et distribution des estimateurs, approximation normale, point de selle et « bootstrap »; tests d'hypothèses; robustesse, inférence bayésienne, pseudo- et quasi vraisemblance, estimation non paramétrique.

Prof. Alejandro Murua

STT 6100

Institution: Université de Montréal

Analyse de la variance

Rappels et compléments sur la théorie du modèle linéaire : moindres carrés, théorèmes de Gauss-Markov et de Cochran, inférence. Modèle à effets fixes et aléatoires. Plan incomplet. Plan à mesures répétées.

Prof. Martin Bilodeau

STT 6410

Institution: Université de Montréal

Séries chronologiques univariées

Méthodes graphiques. Estimation des paramètres d'un processus stationnaire. Inversibilité et prévision. Modèles ARMA, ARIMA et estimations de paramètres. Propriétés des résidus. Séries saisonnières. Données aberrantes.

Prof. Pierre Duchesne

STT 6615

Institution: Université de Montréal

Hiver

Techniques d'exploitation de données (data mining)

Ce cours présente certaines des principales techniques d'analyse de grandes bases de données (data mining). Les technologies de l'intelligence d'affaires permettent aux entreprises, entre autres, d'analyser les données recueillies pour leurs opérations afin de mieux comprendre le comportement de leurs clients dans le but d'aider à anticiper la demande, accroître la rétention ou réduire la fraude. Différentes techniques de l'intelligence d'affaires, parmi les plus utilisées en pratique, seront donc présentées et illustrées à partir d'exemples concrets dans différents domaines de gestion.

Prof. Jean-François Plante & François Bellavance

6-600-09

Institution: HEC Montréal

Logiciels statistiques

L'étudiant apprendra à programmer en SAS et en R afin de nettoyer des jeux de données, de les représenter graphiquement et d'en faire une analyse statistique complexe. En plus de maîtriser le code de base de SAS, l'étudiant apprendra la syntaxe du module ODS qui permet de gérer le contenu des sorties. Il apprendra aussi le langage macro de SAS et s'en servira . afin de créer des fonctions permettant des analyses statistiques supplémentaires. En R, l'étudiant apprendra les bases du langage qui lui serviront à faire une analyse statistique des données .. II ·apprendra aussi à écrire des fonctions permettant l'analyse statistique de données et à construire une librairie de fonctions afin de partager les outils d'analyse qu'il aura codés. R et SAS sont basés sur des langages de programmation différents que l'étudiant devra apprendre à maîtriser.

Prof. Sarah Legendre-Thibodeau

6-613-11

Institution: HEC Montréal

Statistical Learning

The statistical learning class aims at providing an introduction to multiple techniques commonly used in statistical and machine learning.

Topics covered include supervised learning (linear models, stochastic gradient methods, regularized regressions), unsupervised learning (K-means, principal component analysis), neural networks, dynamic programming and reinforcement learning. Financial and actuarial applications will be illustrated.

Prof. Frédéric Godin

MAST 679H

Institution: Concordia University

Analyse et inférence statistique - hiver

L'objectif principal du cours est de fournir à l'étudiant les notions fondamentales de l’analyse et de l’inférence statistique ainsi que les méthodes statistiques avancées. En plus des concepts théoriques, ce cours mettra particulièrement l'accent sur les applications pratiques de ces méthodes dans des contextes de recherche.

Prof. Julie Meloche

6-619-15

Institution: HEC Montréal

Méthodes avancées en exploitation des données

Ce cours a pour but de présenter et discuter de méthodes avancées et récentes en analyse et exploitation de données. Les concepts théoriques et idées à la base de ces méthodes seront discutés en détails. De plus, les développements récents seront aussi abordés dans l'optique d'identifier des pistes de recherche. L'utilisation pratique de ces méthodes sera aussi traitée en utilisant des exemples provenant de plusieurs domaines de la gestion. À cette fin, le langage R sera l'outil de choix car la plupart des méthodes récentes font leur apparition sous la forme de package R.  À la fin du cours,  l'étudiant devra être en mesure de définir un projet de recherche prometteur s'articulant autour des méthodes vues. À cette fin, le projet individuel (voir la section approche pédagogique) est d'une grande importance.

Prof. Denis Larocque

80-619-11

Institution: HEC Montréal

Latent Variable Analysis with Applications in Administrative Sciences

Structural equation models and latent variables is a field of data analytics that has undergone substantial developments over the past two decades. These models allow to characterize and relate some factors that are not directly observable. The range of application of such models is very wide in social sciences, including marketing, management, IT and human resources. The course will be divided into several parts, including a review of the concepts of regression, correlation, causal relation, direct / indirect effects and correlation diagrams. We will then discuss some specific types of structural equation models such as exploratory/confirmatory factor analysis and we will study the general formulation of the model, characterized by a path diagram with latent variables. Finally, component-based structural equation models will also be discussed, such as partial least squares (PLS) and GSCA.

All the analyses seen in this course will be carried out using specialized software. For each type of model studied, we will focus on model identification and specification, parameter inference, model fit and interpretation of results through applied examples in administrative sciences.

Prof. Aurélie Labbe

80-628-17A

Institution: HEC Montréal

Mathematical Statistics 2

Sampling theory (including large-sample theory). Likelihood functions and information matrices. Hypothesis testing, estimation theory. Regression and correlation theory.

Prof. Abbas Khalili Mahmoudabadi

MATH 557

Institution: Université McGill

Computation Intensive Statistics

General introduction to computational methods in statistics; optimization methods; EM algorithm; random number generation and simulations; bootstrap, jackknife, cross-validation, resampling and permutation; Monte Carlo methods: Markov chain Monte Carlo and sequential Monte Carlo; computation in the R language.

Prof. Yi Yang

MATH 680

Institution: Université McGill

Survival Analysis

Parametric survival models. Nonparametric analysis: Kaplan-Meier estimator and its properties. Covariates with emphasis on Cox's proportional hazards model. Marginal and partial likelihood. Logrank tests. Residual analysis. Homework assignments a mixture of theory and applications. In-class discussion of data tests.

Prof. Masoud Asgharian-Dastenaei

MATH 686

Institution: Université McGill

Inférence statistique I

Espérance conditionnelle. Prédiction. Modèles statistiques, familles exponentielles, exhaustivité. Méthodes d'estimation: maximum de vraisemblance, moindres carrés etc. Optimalité: estimateurs sans biais à variance minimum, inégalité de l'information. Propriétés asymptotiques des estimateurs. Intervalles de confiance et précision. Éléments de base de la théorie des tests. Probabilité critique, puissance en relation avec la taille d'échantillon. Relation entre tests et intervalles de confiance. Tests pour des données discrètes.

Prof.

MAT7081-10

Institution: Université du Québec à Montréal

Modèles de régression

Théorie des modèles linéaires généraux. Théorie des modèles linéaires généralisés. Régression logistique. Modèles log-linéaires.

Prof.

MAT7381-20

Institution: Université du Québec à Montréal

Analyse de survie

Lois de probabilité de survie, modèles de pannes. Estimation du taux d'arrivée; modèle à arrivées proportionnelles; données censurées (tronquées) et vraisemblance partielle. Inférence basée sur les rangs. Analyse d'expériences biologiques.

Prof.

MAT9180

Institution: Université du Québec à Montréal

Théorie de la décision bayésienne

Concepts élémentaires: paradigme bayésien, principe de vraisemblance, loi a priori et a posteriori. Information a priori, lois a priori non informatives et fonctions de perte. Estimation ponctuelle, région PHDP, cote de Bayes. Calcul bayésien.

Prof. Mylène Bédard

STT 6115

Institution: Université de Montréal

Méthodes non paramétriques avancées

Statistiques linéaires de rang. Problèmes de position et de dispersion. Cas d'un ou de deux échantillons. Construction additionnelle de méthodes non paramétriques. Quelques problèmes importants.

Prof. Pierre Duchesne

STT 6230

Institution: Université du Québec à Montréal

Régression

Rappels sur la régression linéaire multiple. Diagnostics. Transformations, moindres carrés pondérés, méthodes robustes, régression « ridge ». Régression non linéaire. Modèles spécifiques: logistique, probit, de Poisson.

Prof. David Haziza

STT 6415

Institution: Université de Montréal

Données catégorielles

Tableaux de contingence. Mesures d'association. Risque relatif et rapport de cote. Tests exacts et asymptotiques. Régression logistique, de Poisson. Modèles log-linéaires. Tableaux de contingence à plusieurs dimensions. Méthodes non paramétriques.

Prof. Alejandro Murua

STT 6516

Institution: Université de Montréal

Méthodes d'analyse des données

Théorie et application des méthodes classiques d'analyse de données multivariées : analyse en composantes principales, réduction de la dimensionnalité, analyse des correspondances binaire et multiple, analyse discriminante, classification hiérarchique, classification non hiérarchique, choix optimal du nombre de classes. Initiation aux réseaux de neurones artificiels. Utilisation de logiciels statistiques pour le traitement des données.

Prof. Nadia Ghazzali

MAP6018

Institution: Université du Québec à Trois-Rivières