Statistique

Description du programme

La statistique concerne l’élaboration et l’emploi de méthodes mathématiques et informatiques pour la collecte, l’analyse et l’interprétation de données visant à soutenir la recherche scientifique, la prise de décision éclairée et la gestion des risques. Elle fait appel à un large éventail d’outils, allant de la théorie des probabilités aux techniques de calcul intensif sur ordinateur. Parmi les principaux domaines de recherche des statisticiens du réseau de l’ISM, notons

  • la modélisation de la dépendance et l’analyse multivariée
  • la modélisation des données de grande dimension
  • l’analyse de survie
  • l’analyse de valeurs extrêmes
  • l’apprentissage machine
  • l’apprentissage statistique
  • la statistique directionnelle
  • la statistique non paramétrique
  • la théorie des processus empiriques
  • le calcul statistique
  • les séries chronologiques
  • les techniques d’enquête
  • l’inférence bayésienne et méthodes MCMC
  • l’inférence causale

La recherche statistique est motivée en grande partie par des collaborations interdisciplinaires. Elle trouve des applications dans de nombreux domaines tels la biologie, les sciences de l’environnement, la finance et l’assurance, les sciences de la santé, l’hydrologie, le marketing et les sciences sociales. Avec l’abondance d’ensembles de données complexes et de grande taille émanant entre autres des médias sociaux et des processus numériques, des transactions financières, de l’astronomie, de la génomique, de la météorologie ou de la mégascience comme le grand collisionneur de hadrons, le traitement et l’analyse de données volumineuses est un enjeu majeur de la statistique moderne.

Membres du programme

Formation

Le programme de statistique fournit aux étudiants gradués l'occasion d'étudier dans ces deux domaines importants de la statistique moderne. Les cours offerts dans ce programme permettront aux étudiants de 2e et 3e cycles de bien se familiariser avec les bases de la statistique mathématique, de la théorie de la décision et la statistique appliquée. De plus, quelques cours sont offerts pour initier les étudiants à des sujets de pointe dans ces domaines.

Ce programme est ouvert à tous les étudiants ayant une base solide en calcul différentiel et intégral, statistique mathématique, analyse numérique ainsi qu'en probabilité (le tout au niveau du 1er cycle). Pour acquérir une bonne formation en théorie de la décision et en statistique mathématique, nous pensons que les étudiants devraient prendre un cours de base en mesure et intégration (pour les étudiants au 3e cycle) et au moins trois cours aux niveaux intermédiaires et avancés.

Cours 2018-19

Automne

Statistical Consulting and Data Analysis

Prof. L. Kakinami

MAST 678

Institution: Concordia University

Techniques d'exploitation de données (data mining)

Ce cours présente certaines des principales techniques d'analyse de grandes bases de données (data mining). Les technologies de l'intelligence d'affaires permettent aux entreprises, entre autres, d'analyser les données recueillies pour leurs opérations afin de mieux comprendre le comportement de leurs clients dans le but d'aider à anticiper la demande, accroître la rétention ou réduire la fraude. Différentes techniques de l'intelligence d'affaires, parmi les plus utilisées en pratique, seront donc présentées et illustrées à partir d'exemples concrets dans différents domaines de gestion.

Prof.

6-600-09

Institution: HEC Montréal

Analyse multidimensionnelle appliquée

Les entreprises croulent littéralement sous le poids des données qu'elles ont à leur disposition. Ces données contiennent potentiellement une quantité importante d'informations pouvant être bénéfiques à l'entreprise si utilisées correctement. Sous le vocable « data mining », on retrouve différentes techniques statistiques utilisées pour explorer et analyser de grands ensembles de données. Ces techniques ont généralement pour but de développer des modèles prévisionnels, de réduire la taille des données, de faire de la segmentation ou bien de découvrir des associations pertinentes. L'analyse multidimensionnelle est à la base de plusieurs techniques de data mining et est utilisée dans plusieurs domaines de gestion dont le marketing. 

Le but du cours analyse multidimensionnelle est de donner aux étudiants(e)s une formation de base en traitement de données multidimensionnelles. Plusieurs techniques statistiques seront présentées et on insistera surtout sur la compréhension intuitive, l'interprétation correcte et l'utilisation pratique de celles-ci. Par conséquent, l'emploi de concepts mathématiques sera réduit à son minimum et ces derniers ne serviront qu'à faciliter la compréhension des méthodes étudiées. Le logiciel SAS sera utilisé mais aucune connaissance préalable de celui-ci n'est requise. Par contre, une connaissance des concepts et méthodes statistiques (population, échantillon, estimation, test d'hypothèse) de base est requise.

Prof.

6-602-07

Institution: HEC Montréal

Logiciels statistiques

L'étudiant apprendra à programmer en SAS et en R afin de nettoyer des jeux de données, de les représenter graphiquement et d'en faire une analyse statistique complexe. En plus de maîtriser le code de base de SAS, l'étudiant apprendra la syntaxe du module ODS qui permet de gérer le contenu des sorties. Il apprendra aussi le langage macro de SAS et s'en servira . afin de créer des fonctions permettant des analyses statistiques supplémentaires. En R, l'étudiant apprendra les bases du langage qui lui serviront à faire une analyse statistique des données .. II ·apprendra aussi à écrire des fonctions permettant l'analyse statistique de données et à construire une librairie de fonctions afin de partager les outils d'analyse qu'il aura codés. R et SAS sont basés sur des langages de programmation différents que l'étudiant devra apprendre à maîtriser.

Prof.

6-613-11

Institution: HEC Montréal

Analyse et inférence statistique

L'objectif principal du cours est de fournir à l'étudiant les notions fondamentales de l’analyse et de l’inférence statistique ainsi que les méthodes statistiques avancées. En plus des concepts théoriques, ce cours mettra particulièrement l'accent sur les applications pratiques de ces méthodes dans des contextes de recherche.

Prof.

6-619-15

Institution: HEC Montréal

Analyse de données textuelles et de réseaux sociaux

L'étudiant découvrira les méthodes qui permettent d'analyser automatiquement un corpus de documents par des algorithmes classiques d'exploitation de données. Les textes étant avant tout destinés à la lecture par des humains, l'information qu'ils recèlent n'est pas structurée de manière appropriée à un traitement automatisé. Nous présenterons dans ce cours diverses techniques spécifiques grâce auxquelles un traitement automatisé des documents est possible.

Après avoir suivi ce cours, l'étudiant saura identifier les paramètres appropriés et utiliser de manière appropriée les principaux logiciels disponibles. Le cours est composé de 6 séances de 3 heures durant lesquelles les techniques sont présentées formellement d'abord, puis par l'entremise d'applications.

Prof.

6-621-15

Institution: HEC Montréal

Analyse de données longitudinales et de survie

Le but du cours est de fournir aux étudiants les outils nécessaires à l'analyse de données longitudinales et de survie. Contrairement aux études transversales, la caractéristique principale de ces études est que les sujets sont suivis à travers le temps. Ceci permet d'étudier directement la façon dont évoluent les phénomènes à travers le temps. Par contre, ce type de données engendre aussi des difficultés supplémentaires comme de la dépendance entre les observations d'un même sujet ou la présence de censure. Le cours sera axé sur la compréhension des concepts ainsi que sur l'aspect pratique afin de rendre l'étudiant capable de procéder à l'analyse de données longitudinales et de survie. L'apprentissage se fera à l'aide d'exemples concrets provenant de plusieurs domaines de la gestion.

Prof.

80-621-07

Institution: HEC Montréal

Analysis of Extreme Values with Application to Financial Engineering

Extreme events on financial markets are very difficult to predict and few models are capable of accounting for these characteristics. The theory of extreme values is an important statistical discipline allowing for a more proper modeling of rare events.  In this course, we present the theory of extreme values necessary to solve problems in finance, economics and financial engineering.  The analysis tools required to study such data are also studied.  The proper analysis of extreme values, including methods of estimation, quantification of uncertainty, diagnostics, and maximal utilisation of available data are considered.  We also make extensive use of R, a freely available language and environment for statistical computing and graphics.

Prof. Debbie Dupuis

80-622-10

Institution: HEC Montréal

Machine Learning for Large-Scale Data Analysis and Decision Making

In this course, we will study machine learning models, a type of statistical analysis that focuses on prediction, for analyzing very large datasets ("big data"). In addition to standard models, we will study models for analyzing user behaviour and for decision making. Massive datasets are now common and require scalable analysis tools.  Machine learning provides such tools and is widely used for modelling problems across many fields including artificial intelligence, bioinformatics, finance, marketing, education, transportation, and health.

In this context, we study how standard machine learning models for supervised (classification, regression) and unsupervised learning (for example, clustering and topic modelling) can be scaled to massive datasets using modern computation techniques (for example, computer clusters). In addition, we will discuss recent models for recommender systems as well as for decision making (including multi-arm bandits and reinforcement learning).

Through a course project students will have the opportunity to gain practical experience with the analysis of datasets from their field(s) of interest. A certain level of familiarity with computer programming will be expected.

Prof.

80-629-17A

Institution: HEC Montréal

Experimental Designs and Statistical Methods for Quantitative Research in Management

This course has four main objectives: 1) to present the major experimental designs used for research in management and in the behavioral sciences; 2) to familiarize students with the statistical methods and software (e.g. PASW, formerly SPSS) used to analyze experimental data; 3) to interpret and present results from the statistical analyses and discuss the validity and limits of the methods; 4) to understand and to critic the methodology and statistical results of published articles in the research fields of the students.

Prof.

80-667-09

Institution: HEC Montréal

Nonparametric Statistics

Distribution free procedures for 2-sample problem: Wilcoxon rank sum, Siegel-Tukey, Smirnov tests. Shift model: power and estimation. Single sample procedures: Sign, Wilcoxon signed rank tests. Nonparametric ANOVA: Kruskal-Wallis, Friedman tests. Association: Spearman's rank correlation, Kendall's tau. Goodness of fit: Pearson's chi-square, likelihood ratio, Kolmogorov-Smirnov tests. Statistical software packages used.

Prof. Christian Genest

MATH 524

Institution: Université McGill

Mathematical Statistics I

Distribution theory, stochastic models and multivariate transformations. Families of distributions including location-scale families, exponential families, convolution families, exponential dispersion models and hierarchical models. Concentration inequalities. Characteristic functions. Convergence in probability, almost surely, in Lp and in distribution. Laws of large numbers and Central Limit Theorem. Stochastic simulation.

Prof. Masoud Asgharian-Dastenaei

MATH 556

Institution: Université McGill

Topics in Probability and Statistics: Some fundamental notions in statistics

Overview: The purpose of this course is to (re)visit some of the main ideas of statistics which students might have seen, perhaps fleetingly, in previous courses. The emphasis will be on understanding rather than on breadth. Students will be assigned papers to read that convey these ideas and instruction will be through in-class student presentations and discussion. Most of the papers will be selected from those that are considered to be the historical “breakthrough papers.”

The topics to be covered, time permitting

1. Tests of hypotheses, with emphasis on the meaning of a (frequentist) p-value and the approach taken by Bayesians, as well as attempts to reconcile these two viewpoints.

Book Chapter by M.J.Bayarri and J.O.Berger: “Hypothesis Testing and Model Uncertainty.”

2. The origins Markov Chain Monte Carlo methods.

Metropolis, N.; Rosenbluth, A.W.; Rosenbluth, M.N.; Teller, A.H.; Teller, E. (1953). “Equations of State Calculations by Fast Computing Machines.” Journal of Chemical Physics.

Hastings, W.K. (1970). "Monte Carlo Sampling Methods Using Markov Chains and Their Applications". Biometrika.

3. The origins of empirical Bayesian methods.

H.E. Robbins. “(1955). “An Empirical Bayes Approach to Statistics.” Third Berk. Symp. Statist. Prob.

4. The origins of the bootstrap.
Efron. B. (1979). “Bootstrap methods: another look at the jackknife.” Ann. Statist.,

5. The origins of generalized estimating equations (GEEs).
Liang, K.E. and Zeger, S.L. (1986). “Longitudinal Data Analysis using Generalized Linear Models.”

Prerequisites

The minimum prerequisites are MATH 556 and MATH 557 (Distribution theory and statistical inference) or equivalent, and a course in regression analysis. Naturally, the more exposure that one has had to different areas of statistics the easier the papers will be to read.

Comments

1. Often, at the first, second or third reading of a paper it appears to be opaque. Then, (hopefully) it begins to reveal its secrets.

2. Students will be seriously evaluated on their ability to clearly present the contents of the paper(s) for which they are mainly responsible: Evaluation will be based on in-class presentations and short written summaries. Novel explanations will be rewarded.

3. Some of these papers are long. The technical details are not always crucial to the thrust of the paper and may be omitted as long the reader can describe in broad terms, what they are.

The idea is for students to have fun and derive satisfaction from being able to brag that they have read “the original paper on.......” by “....”

Prof. David Wolfson

MATH 598

Institution: Université McGill

Analyse statistique multivariée

Étude des distributions échantillonnales classiques: T2 de Hotelling; loi de Wishart; distribution des valeurs et des vecteurs propres; distribution des coefficients de corrélation. Analyse de variance multivariée. Test d'indépendance de plusieurs sous-vecteurs. Test de l'égalité de matrices de covariance. Sujets spéciaux.

Prof. Karim Oualkacha

MAT8081

Institution: Université du Québec à Montréal

Modèles de régression

Théorie des modèles linéaires généraux. Théorie des modèles linéaires généralisés. Régression logistique. Modèles log-linéaires.

Prof. Jean-François Coeurjolly

MAT7381

Institution: Université du Québec à Montréal

Méthodes avancées d'inférence

Principes d'inférence; estimation ponctuelle et distribution des estimateurs, approximation normale, point de selle et « bootstrap »; tests d'hypothèses; robustesse, inférence bayésienne, pseudo- et quasi vraisemblance, estimation non paramétrique.

Prof. François Perron

STT 6100

Institution: Université de Montréal

Analyse de la variance

Rappels et compléments sur la théorie du modèle linéaire : moindres carrés, théorèmes de Gauss-Markov et de Cochran, inférence. Modèle à effets fixes et aléatoires. Plan incomplet. Plan à mesures répétées.

Prof. Martin Bilodeau

STT 6410

Institution: Université de Montréal

Régression

Rappels sur la régression linéaire multiple. Diagnostics. Transformations, moindres carrés pondérés, méthodes robustes, régression « ridge ». Régression non linéaire. Modèles spécifiques: logistique, probit, de Poisson.

Prof. Maire

STT 6415

Institution: Université de Montréal

Hiver

Techniques d'exploitation de données (data mining)

Ce cours présente certaines des principales techniques d'analyse de grandes bases de données (data mining). Les technologies de l'intelligence d'affaires permettent aux entreprises, entre autres, d'analyser les données recueillies pour leurs opérations afin de mieux comprendre le comportement de leurs clients dans le but d'aider à anticiper la demande, accroître la rétention ou réduire la fraude. Différentes techniques de l'intelligence d'affaires, parmi les plus utilisées en pratique, seront donc présentées et illustrées à partir d'exemples concrets dans différents domaines de gestion.

Prof.

6-600-09

Institution: HEC Montréal

Analyse multidimensionnelle appliquée

Les entreprises croulent littéralement sous le poids des données qu'elles ont à leur disposition. Ces données contiennent potentiellement une quantité importante d'informations pouvant être bénéfiques à l'entreprise si utilisées correctement. Sous le vocable « data mining », on retrouve différentes techniques statistiques utilisées pour explorer et analyser de grands ensembles de données. Ces techniques ont généralement pour but de développer des modèles prévisionnels, de réduire la taille des données, de faire de la segmentation ou bien de découvrir des associations pertinentes. L'analyse multidimensionnelle est à la base de plusieurs techniques de data mining et est utilisée dans plusieurs domaines de gestion dont le marketing. 

Le but du cours analyse multidimensionnelle est de donner aux étudiants(e)s une formation de base en traitement de données multidimensionnelles. Plusieurs techniques statistiques seront présentées et on insistera surtout sur la compréhension intuitive, l'interprétation correcte et l'utilisation pratique de celles-ci. Par conséquent, l'emploi de concepts mathématiques sera réduit à son minimum et ces derniers ne serviront qu'à faciliter la compréhension des méthodes étudiées. Le logiciel SAS sera utilisé mais aucune connaissance préalable de celui-ci n'est requise. Par contre, une connaissance des concepts et méthodes statistiques (population, échantillon, estimation, test d'hypothèse) de base est requise.

Prof.

6-602-07

Institution: HEC Montréal

Logiciels statistiques

L'étudiant apprendra à programmer en SAS et en R afin de nettoyer des jeux de données, de les représenter graphiquement et d'en faire une analyse statistique complexe. En plus de maîtriser le code de base de SAS, l'étudiant apprendra la syntaxe du module ODS qui permet de gérer le contenu des sorties. Il apprendra aussi le langage macro de SAS et s'en servira . afin de créer des fonctions permettant des analyses statistiques supplémentaires. En R, l'étudiant apprendra les bases du langage qui lui serviront à faire une analyse statistique des données .. II ·apprendra aussi à écrire des fonctions permettant l'analyse statistique de données et à construire une librairie de fonctions afin de partager les outils d'analyse qu'il aura codés. R et SAS sont basés sur des langages de programmation différents que l'étudiant devra apprendre à maîtriser.

Prof.

6-613-11

Institution: HEC Montréal

Analyse et inférence statistique

L'objectif principal du cours est de fournir à l'étudiant les notions fondamentales de l’analyse et de l’inférence statistique ainsi que les méthodes statistiques avancées. En plus des concepts théoriques, ce cours mettra particulièrement l'accent sur les applications pratiques de ces méthodes dans des contextes de recherche.

Prof.

6-619-15

Institution: HEC Montréal

Advanced Topics in Statistics 2 : Machine Learning

Prof. Yi Yang

MATH 783

Institution: Université McGill

Time Series and Forecasting

This course introduces classical time series concepts: trend and seasonal pattern identification, stationarity, autocorrelation and partial autocorrelation, ARMA processes, estimation and prediction, model diagnostics and possibly GARCH and regime-switching models.

Prof. Frédéric Godin

MAST 677-J, MAST 881-J

Institution: Concordia University

Statistical Analysis and Inference

Prof.

6-619-18A

Institution: HEC Montréal

Méthodes de prévision

Prof.

6-638-16

Institution: HEC Montréal

Forecasting Methods

Prof.

6-638-18A

Institution: HEC Montréal

Latent Variable Analysis with Applications in Administrative Sciences

Structural equation models and latent variables is a field of data analytics that has undergone substantial developments over the past two decades. These models allow to characterize and relate some factors that are not directly observable. The range of application of such models is very wide in social sciences, including marketing, management, IT and human resources. The course will be divided into several parts, including a review of the concepts of regression, correlation, causal relation, direct / indirect effects and correlation diagrams. We will then discuss some specific types of structural equation models such as exploratory/confirmatory factor analysis and we will study the general formulation of the model, characterized by a path diagram with latent variables. Finally, component-based structural equation models will also be discussed, such as partial least squares (PLS) and GSCA.

All the analyses seen in this course will be carried out using specialized software. For each type of model studied, we will focus on model identification and specification, parameter inference, model fit and interpretation of results through applied examples in administrative sciences.

Prof.

80-628-17A

Institution: HEC Montréal

Topics in Probability and Statistics : Extreme Value Theory

The course will complement the course 80-622 Analysis of extreme values with application to financial engineering that Debbie Dupuis will be teaching at HEC in the Fall 2018.  

 

Prof. Johanna Neslehova

MATH 598

Institution: Université McGill

Théorie de l'échantillonnage

Sondages avec probabilités inégales, stratifiés, en grappes, à plusieurs degrés. Estimation par le quotient et la régression, optimalité. Coûts; non-réponse; population de référence et population-mère; inférence bayésienne.

Prof. David Haziza

STT 6005

Institution: Université de Montréal