Rédigé et vérifié par un professeur diplômé de l’École Polytechnique. Découvrir le professeur
Le sujet Maths ENS BCPST 2026 porte sur un modèle d’échantillonnage avec remise dans une population à \(N\) espèces différentes. Structuré en cinq parties (7 pages), il mêle analyse des séries numériques, algèbre linéaire (matrices de variance-covariance, diagonalisation) et probabilités discrètes (loi géométrique, formule du crible, nombres de Stirling). L’ensemble constitue une étude progressive et cohérente du problème du coupon collector, depuis les outils préliminaires jusqu’à la loi exacte des variables d’intérêt. Le niveau global est soutenu, avec une difficulté croissante : les deux premières parties restent abordables, mais les parties III à V demandent une maîtrise technique solide et une réelle capacité d’initiative.
| Partie du sujet | Thème | Niveau | Notions mobilisées |
|---|---|---|---|
| Partie I (Q1-5) | Séries numériques et problème de Bâle | Accessible → Élevé | Comparaison série-intégrale, constante d’Euler-Mascheroni, noyau de Dirichlet |
| Partie II (Q1-6) | Propriétés du modèle d’échantillonnage | Accessible → Élevé | Loi binomiale, matrice de variance-covariance, diagonalisation, inégalité de Jensen |
| Partie III (Q1-4) | Espérance de \(T_N\) par maximum-minimum | Élevé | Loi géométrique, formule du crible, représentation intégrale, concavité |
| Partie IV (Q1-4) | Asymptotique du coupon collector (loi uniforme) | Élevé | Nombres harmoniques, variance, inégalité de Bienaymé-Tchebychev |
| Partie V (Q1-3) | Loi exacte de \(Y_n\) et \(T_k\) | Très élevé | Probabilité conditionnelle, formule du crible, nombres de Stirling de seconde espèce |
Le sujet intégral en PDF
L’énoncé complet tel qu’il a été distribué en salle d’examen.
📄 Télécharger le sujet (PDF)Correction complète et détaillée du sujet
Question par question, avec méthodes, calculs et conseils.
📄 Télécharger la correction (PDF)Disponible immédiatement après inscription email.
Structure et thèmes du sujet
Partie I — Questions préliminaires : séries et problème de Bâle
Cette partie installe les outils d’analyse pure qui seront réinvestis dans les parties IV et V. On y définit les sommes harmoniques \(H_n = \displaystyle\sum_{k=1}^{n} \displaystyle\frac{1}{k}\), les sommes partielles \(C_n = \displaystyle\sum_{k=1}^{n} \displaystyle\frac{1}{k^2}\) et \(W_n = \displaystyle\sum_{k=1}^{n} \displaystyle\frac{(-1)^k}{k^2}\). Le parcours va de l’encadrement intégral classique (Q1) à la démonstration complète de la formule de Bâle \(C = \displaystyle\frac{\pi^2}{6}\) (Q5), en passant par la constante d’Euler-Mascheroni (Q2) et la relation \(W = -\displaystyle\frac{1}{2}C\) (Q4). La question 5 est la plus exigeante : elle utilise le noyau de Dirichlet et un lemme de type Riemann-Lebesgue.
Partie II — Étude du modèle d’échantillonnage
On entre dans le cœur probabiliste du sujet. Les variables \(S_{n,i}\) comptent le nombre d’individus de l’espèce \(i\) dans un échantillon de taille \(n\) : elles suivent une loi binomiale. On construit ensuite la matrice de variance-covariance \(\Sigma_n\), que l’on diagonalise dans le cas uniforme. L’indice de diversité de Gini-Simpson apparaît naturellement. La question 4 utilise l’inégalité de Jensen pour montrer que l’espérance du nombre d’espèces observées \(\mathbb{E}[Y_n]\) est maximale lorsque la loi \(\vec{p}\) est uniforme.
Partie III — Espérance de \(T_N\) par la méthode du maximum-minimum
C’est la partie la plus technique en termes de calcul. On introduit les temps d’apparition \(M_i\) de chaque espèce, et on montre que \(T_N = \max_{1 \leq i \leq N} M_i\). La formule du crible (inclusion-exclusion) permet d’exprimer le maximum en fonction des minimums, puis d’obtenir une formule explicite pour \(\mathbb{E}[T_N]\). La question 1(e) fait appel à la loi exponentielle pour établir une identité sur les produits de termes \((1 – e^{-q_i t})\), et la question 1(f) aboutit à la représentation intégrale \(\mathbb{E}[T_N] = \displaystyle\int_0^{\infty} f(\vec{p}, t) \, \mathrm{d}t\). La question 2 exploite la concavité du logarithme pour montrer que \(\mathbb{E}[T_N]\) atteint son minimum en loi uniforme.
Partie IV — Asymptotique dans le cas uniforme
On se place en loi uniforme (\(p_i = 1/N\)) et on étudie le comportement de \(T_N\) lorsque \(N \to +\infty\). Les variables \(G_k = T_k – T_{k-1}\) suivent des lois géométriques indépendantes, ce qui donne \(\mathbb{E}[T_k] = \displaystyle\sum_{\ell=1}^{k} \displaystyle\frac{N}{N – \ell + 1}\). On retrouve \(\mathbb{E}[T_N] \sim N \ln N\) et \(\mathrm{Var}(V_N) \to \displaystyle\frac{\pi^2}{6}\), où \(V_N = \displaystyle\frac{T_N – N \ln N}{N}\). La partie se termine par une inégalité de concentration via Bienaymé-Tchebychev.
Partie V — Loi exacte via les nombres de Stirling
La dernière partie détermine la loi complète de \(Y_n\) (nombre d’espèces observées) et de \(T_k\) (temps d’attente) dans le cas uniforme, faisant intervenir les nombres de Stirling de seconde espèce \(S(n, k)\). C’est un passage combinatoire exigeant qui mobilise la probabilité conditionnelle et la formule du crible de façon sophistiquée.
Notions et chapitres testés
- Analyse — Séries numériques : comparaison série-intégrale, séries de Riemann, convergence absolue, séries alternées, constante d’Euler-Mascheroni, somme \(\displaystyle\frac{\pi^2}{6}\).
- Analyse — Intégration : intégration par parties, noyau de Dirichlet, lemme de Riemann-Lebesgue (admis ou guidé), intégrales généralisées sur \([0, +\infty[\).
- Algèbre linéaire : matrices symétriques, transposée, valeurs propres, diagonalisation, inégalité de Cauchy-Schwarz vectorielle.
- Probabilités discrètes : loi binomiale, loi géométrique, espérance et variance, covariance, formule du crible (inclusion-exclusion).
- Probabilités — Inégalités : inégalité de Jensen (fonction concave), inégalité de Bienaymé-Tchebychev.
- Combinatoire : nombres de Stirling de seconde espèce, dénombrement de surjections.
Niveau de difficulté et comparaison aux années précédentes
Ce sujet se situe dans la tranche haute de difficulté pour l’épreuve ENS BCPST. Plusieurs éléments le distinguent :
- Longueur : 7 pages et 5 parties constituent un sujet dense. Il est quasi impossible de tout traiter dans le temps imparti ; l’enjeu est de maximiser les points sur les questions accessibles.
- Unité thématique forte : contrairement à certains sujets qui juxtaposent des blocs indépendants, ici toutes les parties convergent vers le problème du coupon collector. Cela exige de comprendre le fil conducteur et de réinvestir les résultats intermédiaires.
- Montée en difficulté progressive : les parties I et II offrent de nombreux points abordables. La partie III demande de l’initiative, la partie IV une bonne culture sur les séries, et la partie V est clairement discriminante.
- Comparaison : par rapport aux sujets ENS BCPST des années 2022-2025, ce sujet est comparable en longueur mais se distingue par l’importance de la combinatoire (nombres de Stirling) et l’utilisation systématique de la formule du crible, qui n’est pas toujours aussi centrale.
Pièges et points techniques délicats
Partie I, Q5(a) — Lemme de Riemann-Lebesgue : la démonstration du passage à la limite \(\displaystyle\lim_{\lambda \to +\infty} \displaystyle\int_0^{\pi} f(t) \sin(\lambda t) \, \mathrm{d}t = 0\) pour \(f\) de classe \(\mathcal{C}^1\) nécessite une intégration par parties soignée. N’oublie pas que le terme de bord s’annule grâce aux bornes, et que l’intégrale restante est bornée par \(\displaystyle\frac{1}{\lambda} \displaystyle\int_0^{\pi} |f^\prime(t)| \, \mathrm{d}t\).
Partie I, Q5(c) — Noyau de Dirichlet : le passage de la forme en somme de cosinus à la forme close \(D_n(t) = \displaystyle\frac{\sin\left(\displaystyle\frac{(2n+1)t}{2}\right)}{2\sin\left(\displaystyle\frac{t}{2}\right)}\) exige de passer par les exponentielles complexes et de factoriser une somme géométrique. Attention à bien traiter le cas \(t \in ]0, \pi]\) où \(\sin(t/2) \neq 0\).
Partie II, Q3(d)(ii) — Valeurs propres de \(\mathbf{J}_N\) : la matrice \(\mathbf{J}_N = \vec{1}_N \vec{1}_N^{\,\mathrm{T}}\) est de rang 1. Elle admet \(N\) comme valeur propre (vecteur propre \(\vec{1}_N\)) et \(0\) comme valeur propre d’ordre \(N-1\). Beaucoup de candidats oublient de justifier la multiplicité de 0 ou confondent rang et valeur propre.
Partie III, Q1(c) — Identité du max : cette formule d’inclusion-exclusion pour le maximum est le cœur technique du sujet. La suggestion de l’énoncé (passer par une variable uniforme sur \([0,1]\)) est précieuse : il faut d’abord montrer l’identité pour \(x_i \in [0,1]\) en l’interprétant comme \(\mathbb{P}(U \leq \max x_i)\), puis généraliser par homogénéité.
Partie III, Q2 — Optimisation sous contrainte : pour montrer que \(\mathbb{E}[T_N]\) atteint son minimum en loi uniforme, il faut bien transformer le problème de minimisation de \(f\) en maximisation de \(\tilde{f}\) (passage au logarithme), puis appliquer Jensen à la fonction concave \(g : x \mapsto \ln(1 – e^{-xt})\). N’inverse pas le sens de l’inégalité !
Partie V, Q2(b) — Calcul de \(\mathbb{P}(B_{J_k}^{(n)} \mid A_{J_k}^{(n)})\) : il faut conditionner par le fait que tous les tirages tombent dans \(J_k\), puis calculer la probabilité que chaque élément de \(J_k\) soit effectivement atteint. C’est un problème de surjection déguisé. L’utilisation de la formule du crible « à l’intérieur » du conditionnement est délicate.
Méthodes attendues et stratégies de résolution
Partie I
Q1 : encadrement par monotonie de \(t \mapsto t^{-a}\) sur \([k, k+1]\) et \([k-1, k]\). Q2(a) : exploiter l’encadrement de Q1 avec \(a = 1\) pour obtenir \(\displaystyle\frac{1}{n+1} \leq \ln\left(\displaystyle\frac{n+1}{n}\right) \leq \displaystyle\frac{1}{n}\). Q2(b) : montrer que \((u_n)\) est décroissante et minorée. Q4 : étudier \(C_n + W_n\) en regroupant les termes pairs et impairs pour faire apparaître \(\displaystyle\frac{1}{2} C_{\lfloor n/2 \rfloor}\). Q5 : calculer \(\displaystyle\int_0^{\pi} t D_n(t) \, \mathrm{d}t\) en développant \(D_n\) et en utilisant les intégrales \(\displaystyle\int_0^{\pi} t \cos(kt) \, \mathrm{d}t\) (intégration par parties), puis passer à la limite via Q5(a).
Partie II
Q1 : \(S_{n,i} \sim \mathcal{B}(n, p_i)\). Q2 : développer \(S_{n,i} S_{n,j}\) comme double somme d’indicatrices et exploiter l’indépendance des \(X_k\). Q3 : pour la diagonalisation, utiliser que \(\Sigma_n = \displaystyle\frac{n}{N} \mathbf{M}_N\) avec \(\mathbf{M}_N = \mathbf{I}_N – \displaystyle\frac{1}{N} \mathbf{J}_N\), et que \(\mathbf{J}_N\) est de rang 1. Q4 : appliquer Jensen à \(h : x \mapsto -(1-x)^n\), qui est concave sur \(]0, 1[\) (calculer \(h^{\prime\prime}\)).
Partie III
Q1(b) : pour \(J_k = \{j_1, \ldots, j_k\}\), la variable \(\min_{j \in J_k} M_j\) est le premier instant où l’une des espèces de \(J_k\) apparaît : c’est géométrique de paramètre \(p_{J_k}\). Q1(c) : utiliser la formule du crible sur \(\{U \leq x_i\}\) avec \(U\) uniforme. Q1(f) : appliquer Q1(e) avec \(q_i = p_i\) et intégrer l’identité de Q1(d) terme à terme grâce aux intégrales d’exponentielles. Q2 : montrer que \(g(x) = \ln(1 – e^{-xt})\) est concave, puis appliquer Jensen pour \(\tilde{f}\).
Partie IV
Q1(b)(iii) : \(\mathbb{E}[T_N] = N H_N \sim N \ln N\) grâce à l’équivalent \(H_N \sim \ln N\). Q1(c) : vérifier que \(\mathbb{E}[V_N] = H_N – \ln N \to \gamma\) (constante d’Euler-Mascheroni de la Partie I). Q1(d) : \(\mathrm{Var}(T_N) = \displaystyle\sum_{k=1}^{N} \mathrm{Var}(G_k)\) par indépendance, et calculer la variance d’une géométrique. Q3 : combiner l’encadrement de Q I.2(b) avec Tchebychev.
Partie V
Q1 : \(\{T_N\) > \(n\}\) signifie qu’au moins une espèce n’a pas été observée en \(n\) tirages, soit \(\bigcup_{i=1}^{N} \{S_{n,i} = 0\}\). Appliquer le crible. Q2 : décomposer \(\{Y_n = k\}\) selon le sous-ensemble \(J_k\) d’espèces observées, puis conditionner par \(A_{J_k}^{(n)}\). Q2(d) : l’événement \(\{T_k = n\}\) correspond à observer exactement \(k-1\) espèces en \(n-1\) tirages, puis une nouvelle espèce au tirage \(n\).
Conseils pour les futurs candidats
Gestion du temps : ce sujet est long. Commence par les parties I et II qui offrent le meilleur ratio points/temps. En partie I, les questions 1 à 4 sont classiques ; la Q5 est un bloc autonome que tu peux reporter. En partie II, les questions 1 à 3 sont directes si tu maîtrises la loi binomiale et les matrices.
Chapitres à travailler en priorité :
- Séries numériques : encadrements par comparaison série-intégrale, convergence de séries de Riemann, manipulation de séries alternées. La constante d’Euler-Mascheroni et le problème de Bâle sont des classiques absolus qui tombent régulièrement.
- Formule du crible (inclusion-exclusion) : c’est le fil rouge du sujet. Entraîne-toi à l’appliquer dans des contextes variés : dénombrement, probabilités, identités algébriques.
- Lois discrètes classiques : binomiale, géométrique, Poisson. Sache retrouver rapidement espérance, variance et fonction génératrice.
- Diagonalisation de matrices de rang faible : les matrices de type \(\vec{u} \, \vec{u}^{\,\mathrm{T}}\) (rang 1) apparaissent très souvent. Maîtrise le calcul de leurs valeurs propres et espaces propres.
- Inégalité de Jensen : savoir l’énoncer, vérifier la concavité d’une fonction, et l’appliquer pour des problèmes d’optimisation sous contrainte de somme.
Conseil méthodologique : dans les sujets à fil conducteur comme celui-ci, lis l’intégralité de l’énoncé avant de commencer à rédiger. Certaines questions ultérieures éclairent le sens des questions précédentes, et tu peux utiliser les résultats admis des parties suivantes pour comprendre où l’on va.
Enfin, n’oublie pas de soigner l’interprétation (questions II.5, II.6, III.4, IV.4) : ces questions qualitatives sont souvent négligées par les candidats, mais elles rapportent des points précieux et montrent ta compréhension globale du modèle.