Statistics

Program Description

Statistics is concerned with the development and use of mathematical and computational methods for the collection, analysis, and interpretation of data in support of scientific inquiry, informed decision-making, and risk management. It calls on a broad range of tools from probability theory to computer-intensive techniques. The main areas of research by statisticians in the ISM network include

  • Bayesian inference and Markov chain Monte Carlo methods
  • causal inference
  • computational statistics
  • dependence modeling and multivariate analysis
  • directional statistics
  • empirical process theory
  • extreme-value analysis
  • high-dimensional data modeling
  • machine learning
  • nonparametric statistics
  • statistical learning
  • survey sampling
  • survival analysis
  • time series

Statistical research is largely motivated by collaboration with other disciplines. It finds applications in many fields, including biology, environmental science, finance and insurance, health sciences, hydrology, market research, and social sciences. With the abundance of very large and complex data sets coming, for example, from the social media and digital processes, financial transactions, astronomy, genomics, meteorology or Big Science like the Giant Hadron Collide, the statistical treatment and analysis of Big Data has become a major challenge of modern statistics.

Program Members

Academic Program

The statistics program gives an opportunity to graduate students to study in these two major areas of modern statistics. The curriculum allows the students to get well acquainted with the basic elements of mathematical statistics, decision theory and applied statistics. Furthermore, advanced graduate courses can be offered in some more specialized areas.

This program welcomes graduate students with a good background in calculus, mathematical statistics, numerical analysis, and probability (all at the undergraduate level). To get strong training in decision theory and mathematical statistics students should take the basic course in measure and integration (for PhD students) and at least three courses at the intermediate and advanced levels.

2018-19 Course Listings

Fall

Statistical Consulting and Data Analysis

Prof. L. Kakinami

MAST 678

Institution: Concordia University

Techniques d'exploitation de données (data mining)

Ce cours présente certaines des principales techniques d'analyse de grandes bases de données (data mining). Les technologies de l'intelligence d'affaires permettent aux entreprises, entre autres, d'analyser les données recueillies pour leurs opérations afin de mieux comprendre le comportement de leurs clients dans le but d'aider à anticiper la demande, accroître la rétention ou réduire la fraude. Différentes techniques de l'intelligence d'affaires, parmi les plus utilisées en pratique, seront donc présentées et illustrées à partir d'exemples concrets dans différents domaines de gestion.

Prof. François Bellavance & Yves Leblond

6-600-09

Institution: HEC Montréal

Data-mining Techniques

This course introduces the main data mining and machine learning methods used in practice for the analysis of big data.

This course introduces the major data mining techniques used to analyze big data. Business intelligence technologies enable companies to analyze the large amount of data collected for their operations to, for example, better understand customer behavior in order to help anticipate demand or increase retention, reduce fraud, optimize preventive maintenance, etc.. Different data mining techniques, among the most widely used in practice, will therefore be presented and illustrated based on concrete examples in different management domains.

Prof. Jian Tang

6-600-18A

Institution: HEC Montréal

Analyse multidimensionnelle appliquée

Les entreprises croulent littéralement sous le poids des données qu'elles ont à leur disposition. Ces données contiennent potentiellement une quantité importante d'informations pouvant être bénéfiques à l'entreprise si utilisées correctement. Sous le vocable « data mining », on retrouve différentes techniques statistiques utilisées pour explorer et analyser de grands ensembles de données. Ces techniques ont généralement pour but de développer des modèles prévisionnels, de réduire la taille des données, de faire de la segmentation ou bien de découvrir des associations pertinentes. L'analyse multidimensionnelle est à la base de plusieurs techniques de data mining et est utilisée dans plusieurs domaines de gestion dont le marketing. 

Le but du cours analyse multidimensionnelle est de donner aux étudiants(e)s une formation de base en traitement de données multidimensionnelles. Plusieurs techniques statistiques seront présentées et on insistera surtout sur la compréhension intuitive, l'interprétation correcte et l'utilisation pratique de celles-ci. Par conséquent, l'emploi de concepts mathématiques sera réduit à son minimum et ces derniers ne serviront qu'à faciliter la compréhension des méthodes étudiées. Le logiciel SAS sera utilisé mais aucune connaissance préalable de celui-ci n'est requise. Par contre, une connaissance des concepts et méthodes statistiques (population, échantillon, estimation, test d'hypothèse) de base est requise.

Prof. Laurent Charlin & Julie Meloche

6-602-07

Institution: HEC Montréal

Logiciels statistiques

L'étudiant apprendra à programmer en SAS et en R afin de nettoyer des jeux de données, de les représenter graphiquement et d'en faire une analyse statistique complexe. En plus de maîtriser le code de base de SAS, l'étudiant apprendra la syntaxe du module ODS qui permet de gérer le contenu des sorties. Il apprendra aussi le langage macro de SAS et s'en servira . afin de créer des fonctions permettant des analyses statistiques supplémentaires. En R, l'étudiant apprendra les bases du langage qui lui serviront à faire une analyse statistique des données .. II ·apprendra aussi à écrire des fonctions permettant l'analyse statistique de données et à construire une librairie de fonctions afin de partager les outils d'analyse qu'il aura codés. R et SAS sont basés sur des langages de programmation différents que l'étudiant devra apprendre à maîtriser.

Prof. Sarah Legendre Bilodeau

6-613-11

Institution: HEC Montréal

Analyse et inférence statistique

L'objectif principal du cours est de fournir à l'étudiant les notions fondamentales de l’analyse et de l’inférence statistique ainsi que les méthodes statistiques avancées. En plus des concepts théoriques, ce cours mettra particulièrement l'accent sur les applications pratiques de ces méthodes dans des contextes de recherche.

Prof. Aurélie Labbe

6-619-15

Institution: HEC Montréal

Analyse de données textuelles et de réseaux sociaux

L'étudiant découvrira les méthodes qui permettent d'analyser automatiquement un corpus de documents par des algorithmes classiques d'exploitation de données. Les textes étant avant tout destinés à la lecture par des humains, l'information qu'ils recèlent n'est pas structurée de manière appropriée à un traitement automatisé. Nous présenterons dans ce cours diverses techniques spécifiques grâce auxquelles un traitement automatisé des documents est possible.

Après avoir suivi ce cours, l'étudiant saura identifier les paramètres appropriés et utiliser de manière appropriée les principaux logiciels disponibles. Le cours est composé de 6 séances de 3 heures durant lesquelles les techniques sont présentées formellement d'abord, puis par l'entremise d'applications.

Prof. Gilles Caporossi

6-621-15

Institution: HEC Montréal

Analyse de données longitudinales et de survie

Le but du cours est de fournir aux étudiants les outils nécessaires à l'analyse de données longitudinales et de survie. Contrairement aux études transversales, la caractéristique principale de ces études est que les sujets sont suivis à travers le temps. Ceci permet d'étudier directement la façon dont évoluent les phénomènes à travers le temps. Par contre, ce type de données engendre aussi des difficultés supplémentaires comme de la dépendance entre les observations d'un même sujet ou la présence de censure. Le cours sera axé sur la compréhension des concepts ainsi que sur l'aspect pratique afin de rendre l'étudiant capable de procéder à l'analyse de données longitudinales et de survie. L'apprentissage se fera à l'aide d'exemples concrets provenant de plusieurs domaines de la gestion.

Prof. Denis Larocque

80-621-07

Institution: HEC Montréal

Analysis of Extreme Values with Application to Financial Engineering

Extreme events on financial markets are very difficult to predict and few models are capable of accounting for these characteristics. The theory of extreme values is an important statistical discipline allowing for a more proper modeling of rare events.  In this course, we present the theory of extreme values necessary to solve problems in finance, economics and financial engineering.  The analysis tools required to study such data are also studied.  The proper analysis of extreme values, including methods of estimation, quantification of uncertainty, diagnostics, and maximal utilisation of available data are considered.  We also make extensive use of R, a freely available language and environment for statistical computing and graphics.

Prof. Debbie Dupuis

80-622-10

Institution: HEC Montréal

Machine Learning for Large-Scale Data Analysis and Decision Making

In this course, we will study machine learning models, a type of statistical analysis that focuses on prediction, for analyzing very large datasets ("big data"). In addition to standard models, we will study models for analyzing user behaviour and for decision making. Massive datasets are now common and require scalable analysis tools.  Machine learning provides such tools and is widely used for modelling problems across many fields including artificial intelligence, bioinformatics, finance, marketing, education, transportation, and health.

In this context, we study how standard machine learning models for supervised (classification, regression) and unsupervised learning (for example, clustering and topic modelling) can be scaled to massive datasets using modern computation techniques (for example, computer clusters). In addition, we will discuss recent models for recommender systems as well as for decision making (including multi-arm bandits and reinforcement learning).

Through a course project students will have the opportunity to gain practical experience with the analysis of datasets from their field(s) of interest. A certain level of familiarity with computer programming will be expected.

Prof. Laurent Charlin

80-629-17A

Institution: HEC Montréal

Experimental Designs and Statistical Methods for Quantitative Research in Management

This course has four main objectives: 1) to present the major experimental designs used for research in management and in the behavioral sciences; 2) to familiarize students with the statistical methods and software (e.g. PASW, formerly SPSS) used to analyze experimental data; 3) to interpret and present results from the statistical analyses and discuss the validity and limits of the methods; 4) to understand and to critic the methodology and statistical results of published articles in the research fields of the students.

Prof. François Bellavance

80-667-09

Institution: HEC Montréal

Nonparametric Statistics

Distribution free procedures for 2-sample problem: Wilcoxon rank sum, Siegel-Tukey, Smirnov tests. Shift model: power and estimation. Single sample procedures: Sign, Wilcoxon signed rank tests. Nonparametric ANOVA: Kruskal-Wallis, Friedman tests. Association: Spearman's rank correlation, Kendall's tau. Goodness of fit: Pearson's chi-square, likelihood ratio, Kolmogorov-Smirnov tests. Statistical software packages used.

Prof. Christian Genest

MATH 524

Institution: McGill University

Mathematical Statistics I

Distribution theory, stochastic models and multivariate transformations. Families of distributions including location-scale families, exponential families, convolution families, exponential dispersion models and hierarchical models. Concentration inequalities. Characteristic functions. Convergence in probability, almost surely, in Lp and in distribution. Laws of large numbers and Central Limit Theorem. Stochastic simulation.

Prof. Masoud Asgharian-Dastenaei

MATH 556

Institution: McGill University

Topics in Probability and Statistics: Some fundamental notions in statistics

Overview: The purpose of this course is to (re)visit some of the main ideas of statistics which students might have seen, perhaps fleetingly, in previous courses. The emphasis will be on understanding rather than on breadth. Students will be assigned papers to read that convey these ideas and instruction will be through in-class student presentations and discussion. Most of the papers will be selected from those that are considered to be the historical “breakthrough papers.”

The topics to be covered, time permitting

1. Tests of hypotheses, with emphasis on the meaning of a (frequentist) p-value and the approach taken by Bayesians, as well as attempts to reconcile these two viewpoints.

Book Chapter by M.J.Bayarri and J.O.Berger: “Hypothesis Testing and Model Uncertainty.”

2. The origins Markov Chain Monte Carlo methods.

Metropolis, N.; Rosenbluth, A.W.; Rosenbluth, M.N.; Teller, A.H.; Teller, E. (1953). “Equations of State Calculations by Fast Computing Machines.” Journal of Chemical Physics.

Hastings, W.K. (1970). "Monte Carlo Sampling Methods Using Markov Chains and Their Applications". Biometrika.

3. The origins of empirical Bayesian methods.

H.E. Robbins. “(1955). “An Empirical Bayes Approach to Statistics.” Third Berk. Symp. Statist. Prob.

4. The origins of the bootstrap.
Efron. B. (1979). “Bootstrap methods: another look at the jackknife.” Ann. Statist.,

5. The origins of generalized estimating equations (GEEs).
Liang, K.E. and Zeger, S.L. (1986). “Longitudinal Data Analysis using Generalized Linear Models.”

Prerequisites

The minimum prerequisites are MATH 556 and MATH 557 (Distribution theory and statistical inference) or equivalent, and a course in regression analysis. Naturally, the more exposure that one has had to different areas of statistics the easier the papers will be to read.

Comments

1. Often, at the first, second or third reading of a paper it appears to be opaque. Then, (hopefully) it begins to reveal its secrets.

2. Students will be seriously evaluated on their ability to clearly present the contents of the paper(s) for which they are mainly responsible: Evaluation will be based on in-class presentations and short written summaries. Novel explanations will be rewarded.

3. Some of these papers are long. The technical details are not always crucial to the thrust of the paper and may be omitted as long the reader can describe in broad terms, what they are.

The idea is for students to have fun and derive satisfaction from being able to brag that they have read “the original paper on.......” by “....”

Prof. David Wolfson

MATH 598

Institution: McGill University

Computation Intensive Statistics

General introduction to computational methods in statistics; optimization methods; EM algorithm; random number generation and simulations; bootstrap, jackknife, cross-validation, resampling and permutation; Monte Carlo methods: Markov chain Monte Carlo and sequential Monte Carlo; computation in the R language.

Prof. Yi Yang

MATH 680

Institution: McGill University

Analyse statistique multivariée

Étude des distributions échantillonnales classiques: T2 de Hotelling; loi de Wishart; distribution des valeurs et des vecteurs propres; distribution des coefficients de corrélation. Analyse de variance multivariée. Test d'indépendance de plusieurs sous-vecteurs. Test de l'égalité de matrices de covariance. Sujets spéciaux.

Prof. Karim Oualkacha

MAT8081

Institution: Université du Québec à Montréal

Modèles de régression

Théorie des modèles linéaires généraux. Théorie des modèles linéaires généralisés. Régression logistique. Modèles log-linéaires.

Prof. Jean-François Coeurjolly

MAT7381

Institution: Université du Québec à Montréal

Méthodes avancées d'inférence

Principes d'inférence; estimation ponctuelle et distribution des estimateurs, approximation normale, point de selle et « bootstrap »; tests d'hypothèses; robustesse, inférence bayésienne, pseudo- et quasi vraisemblance, estimation non paramétrique.

Prof. François Perron

STT 6100

Institution: Université de Montréal

Analyse de la variance

Rappels et compléments sur la théorie du modèle linéaire : moindres carrés, théorèmes de Gauss-Markov et de Cochran, inférence. Modèle à effets fixes et aléatoires. Plan incomplet. Plan à mesures répétées.

Prof. Martin Bilodeau

STT 6410

Institution: Université de Montréal

Régression

Rappels sur la régression linéaire multiple. Diagnostics. Transformations, moindres carrés pondérés, méthodes robustes, régression « ridge ». Régression non linéaire. Modèles spécifiques: logistique, probit, de Poisson.

Prof. Maire

STT 6415

Institution: Université de Montréal

Winter

Techniques d'exploitation de données (data mining)

Ce cours présente certaines des principales techniques d'analyse de grandes bases de données (data mining). Les technologies de l'intelligence d'affaires permettent aux entreprises, entre autres, d'analyser les données recueillies pour leurs opérations afin de mieux comprendre le comportement de leurs clients dans le but d'aider à anticiper la demande, accroître la rétention ou réduire la fraude. Différentes techniques de l'intelligence d'affaires, parmi les plus utilisées en pratique, seront donc présentées et illustrées à partir d'exemples concrets dans différents domaines de gestion.

Prof. François Bellavance & Yves Leblond

6-600-09

Institution: HEC Montréal

Analyse multidimensionnelle appliquée

Les entreprises croulent littéralement sous le poids des données qu'elles ont à leur disposition. Ces données contiennent potentiellement une quantité importante d'informations pouvant être bénéfiques à l'entreprise si utilisées correctement. Sous le vocable « data mining », on retrouve différentes techniques statistiques utilisées pour explorer et analyser de grands ensembles de données. Ces techniques ont généralement pour but de développer des modèles prévisionnels, de réduire la taille des données, de faire de la segmentation ou bien de découvrir des associations pertinentes. L'analyse multidimensionnelle est à la base de plusieurs techniques de data mining et est utilisée dans plusieurs domaines de gestion dont le marketing. 

Le but du cours analyse multidimensionnelle est de donner aux étudiants(e)s une formation de base en traitement de données multidimensionnelles. Plusieurs techniques statistiques seront présentées et on insistera surtout sur la compréhension intuitive, l'interprétation correcte et l'utilisation pratique de celles-ci. Par conséquent, l'emploi de concepts mathématiques sera réduit à son minimum et ces derniers ne serviront qu'à faciliter la compréhension des méthodes étudiées. Le logiciel SAS sera utilisé mais aucune connaissance préalable de celui-ci n'est requise. Par contre, une connaissance des concepts et méthodes statistiques (population, échantillon, estimation, test d'hypothèse) de base est requise.

Prof. Laurent Charlin & Julie Meloche

6-602-07

Institution: HEC Montréal

Logiciels statistiques

L'étudiant apprendra à programmer en SAS et en R afin de nettoyer des jeux de données, de les représenter graphiquement et d'en faire une analyse statistique complexe. En plus de maîtriser le code de base de SAS, l'étudiant apprendra la syntaxe du module ODS qui permet de gérer le contenu des sorties. Il apprendra aussi le langage macro de SAS et s'en servira . afin de créer des fonctions permettant des analyses statistiques supplémentaires. En R, l'étudiant apprendra les bases du langage qui lui serviront à faire une analyse statistique des données .. II ·apprendra aussi à écrire des fonctions permettant l'analyse statistique de données et à construire une librairie de fonctions afin de partager les outils d'analyse qu'il aura codés. R et SAS sont basés sur des langages de programmation différents que l'étudiant devra apprendre à maîtriser.

Prof. Sarah Legendre Bilodeau

6-613-11

Institution: HEC Montréal

Analyse et inférence statistique

L'objectif principal du cours est de fournir à l'étudiant les notions fondamentales de l’analyse et de l’inférence statistique ainsi que les méthodes statistiques avancées. En plus des concepts théoriques, ce cours mettra particulièrement l'accent sur les applications pratiques de ces méthodes dans des contextes de recherche.

Prof. Aurélie Labbe

6-619-15

Institution: HEC Montréal

Time Series and Forecasting

This course introduces classical time series concepts: trend and seasonal pattern identification, stationarity, autocorrelation and partial autocorrelation, ARMA processes, estimation and prediction, model diagnostics and possibly GARCH and regime-switching models.

Prof. Frédéric Godin

MAST 677-J, MAST 881-J

Institution: Concordia University

Statistical Analysis and Inference

The goal of this course is to provide basic notions of statistical analysis and inference as well as advanced statistical methods. In addition to the theoretical concepts, this course will focus on the practical applications of these methods.

Thèmes couverts

1) SAS software

2) ANOVA, t-tests

3) Linear models

4) Generalized linear models

5) Likelihood methods

6) Correlated data analysis

7) Non-parametric methods

Prof.

6-619-18A

Institution: HEC Montréal

Méthodes de prévision

Présentation des principales méthodes propres à la prévision nécessaire à la prise de décisions en présence l'incertitude. Grands principes des méthodes de prévision utilisées.

Les étudiants se familiariseront avec l'utilisation des principales techniques telles le lissage, la régression, les séries chronologiques et les réseaux de neurones. Les méthodes d'évaluation et de sélection de modèles, ainsi que les méthodes d'évaluation des erreurs de prévision, sont aussi au programme. Le logiciel R sera utilisé.

Prof.

6-638-16

Institution: HEC Montréal

Forecasting Methods

Presentation of the main forecasting methods necessary for decision making in the presence of uncertainty. General principles of forecasting methods used are outlined.

Students will become familiar with the use of key techniques such as smoothing, regression, time series and neural networks. Methods for model evaluation and selection, as well as methods for estimating forecast errors, are also on the program. The R software will be used.

Prof.

6-638-18A

Institution: HEC Montréal

Latent Variable Analysis with Applications in Administrative Sciences

Structural equation models and latent variables is a field of data analytics that has undergone substantial developments over the past two decades. These models allow to characterize and relate some factors that are not directly observable. The range of application of such models is very wide in social sciences, including marketing, management, IT and human resources. The course will be divided into several parts, including a review of the concepts of regression, correlation, causal relation, direct / indirect effects and correlation diagrams. We will then discuss some specific types of structural equation models such as exploratory/confirmatory factor analysis and we will study the general formulation of the model, characterized by a path diagram with latent variables. Finally, component-based structural equation models will also be discussed, such as partial least squares (PLS) and GSCA.

All the analyses seen in this course will be carried out using specialized software. For each type of model studied, we will focus on model identification and specification, parameter inference, model fit and interpretation of results through applied examples in administrative sciences.

Prof.

80-628-17A

Institution: HEC Montréal

Théorie de l'échantillonnage

Sondages avec probabilités inégales, stratifiés, en grappes, à plusieurs degrés. Estimation par le quotient et la régression, optimalité. Coûts; non-réponse; population de référence et population-mère; inférence bayésienne.

Prof. David Haziza

STT 6005

Institution: Université de Montréal

Topics in Probability and Statistics : Extreme Value Theory

The course will complement the course 80-622 Analysis of extreme values with application to financial engineering that Debbie Dupuis will be teaching at HEC in the Fall 2018.  

 

Prof. Johanna Neslehova

MATH 598

Institution: McGill University

Advanced Topics in Statistics 2 : Machine Learning

Prof. Yi Yang

MATH 783

Institution: McGill University

Topics in Statistics: Bayesian inference and computational methods

This course will give an introduction to Bayesian inference, and discuss implementation via various computational methods including Monte Carlo.  The second half of the course will focus in particular on Markov chain Monte Carlo theory and practice.

Prof. David Stephens

MATH 598

Institution: McGill University