Rédigé et vérifié par un professeur diplômé de l’École Polytechnique. Découvrir le professeur
Le sujet de Maths 2 Appliquées ESSEC (BCE, filière ECG) 2026, d’une durée de 4 heures et sans calculatrice, est entièrement consacré au problème du bandit manchot, un classique de l’apprentissage par renforcement. L’énoncé progresse des inégalités de concentration (Markov, Hoeffding) vers l’analyse de deux stratégies de décision séquentielle : ETC (Explore Then Commit) et UCB (Upper Confidence Bound), en mobilisant probabilités, analyse, Python et SQL. La première moitié du sujet est abordable avec une bonne préparation ; la seconde moitié, en revanche, est nettement plus exigeante et réserve une fin de problème très sélective.
| Partie du sujet | Thème | Niveau | Notions mobilisées |
|---|---|---|---|
| Résultats généraux (Q1–Q4) | Sous-gaussianité et inégalités exponentielles | Accessible | Inégalité de Markov, convexité, exponentielle |
| Résultats généraux (Q5–Q7) | Inégalité de Hoeffding, intervalle de confiance | Élevé | Indépendance, concentration, estimation |
| Utilisation SQL (Q8) | Requêtes sur la table Bandit | Accessible | SQL (SELECT, WHERE, COUNT, AVG) |
| Stratégie ETC (Q9–Q13) | Espérance du regret et implémentation | Accessible | Espérance, probabilités totales, Python |
| Stratégie ETC (Q14–Q16) | Majoration et optimisation du regret | Élevé | Inégalité de Hoeffding, optimisation continue |
| Stratégie UCB (Q17–Q22) | Borne de confiance et regret logarithmique | Très élevé | UCB, majoration fine, décroissance de fonctions |
Le sujet intégral en PDF
L’énoncé complet tel qu’il a été distribué en salle d’examen.
📄 Télécharger le sujet (PDF)Correction complète et détaillée du sujet
Question par question, avec méthodes, calculs et conseils.
📄 Télécharger la correction (PDF)Disponible immédiatement après inscription email.
Structure et thèmes du sujet
Résultats généraux (Q1–Q7)
Le sujet s’ouvre par l’inégalité de Boole (Q1) : pour \(k\) événements \(B_1, \ldots, B_k\), on a \(\mathbb{P}\!\left(\bigcup_{i=1}^{k} B_i\right) \leq \sum_{i=1}^{k} \mathbb{P}(B_i)\). Un rectificatif a été distribué pendant l’épreuve pour corriger une coquille d’indice dans la formule originale.
Les questions Q2 à Q4 construisent patiemment la propriété de sous-gaussianité d’une variable aléatoire bornée et centrée. On étudie la fonction auxiliaire \(f(t) = \displaystyle\frac{t^2}{8} + \theta t – \ln(1 – \theta + \theta\, e^t)\) pour \(\theta \in [0,1]\), on montre qu’elle est de classe \(\mathcal{C}^2\) avec une dérivée seconde positive, puis que \(f(t) \geq 0\) pour tout réel \(t\). Le résultat clé qui en découle est :
\(\mathbb{E}(e^{tX}) \leq \exp\!\left(\displaystyle\frac{t^2}{8}\right)\)
pour toute variable \(X\) d’espérance nulle à valeurs dans \([-\theta, 1-\theta]\). Ce contrôle de la transformée de Laplace est le cœur technique du sujet.
Les questions Q5 à Q7 exploitent ce résultat pour démontrer l’inégalité de Hoeffding : pour des variables \(X_1, \ldots, X_n\) indépendantes à valeurs dans \([0,1]\) de même espérance \(\mu\),
\(\mathbb{P}(\bar{X}_n – \mu \geq \varepsilon) \leq \exp(-2n\varepsilon^2)\)
puis on construit un intervalle de confiance pour \(\mu\) au niveau \(1 – \alpha\) (Q7).
Description du modèle et SQL (Q8)
L’énoncé introduit le cadre du bandit manchot à \(r\) bras avec des récompenses de Bernoulli de paramètres \(p_1, \ldots, p_r\). On effectue \(n\) actions séquentielles, chaque action \(I_j\) produisant une récompense \(Y_j\). Le regret \(\Delta_n = np^* – R_n\) mesure la perte par rapport à la stratégie optimale. La question 8 porte sur des requêtes SQL appliquées à une table Bandit (champs Numero, Action, Recompense) : sélection, filtrage, comptage et calcul de moyenne.
Stratégie ETC — Explore Then Commit (Q9–Q16)
Les questions Q9–Q10 établissent la décomposition fondamentale \(\mathbb{E}(\Delta_n) = \sum_{i=1}^{r} \delta_i\, \mathbb{E}(N_{i,n})\) où \(\delta_i = p^* – p_i\). La question Q11 traite le cas d’une stratégie « sans intelligence » (choix selon la loi uniforme) comme point de référence. La stratégie ETC consiste à explorer chaque bras \(m\) fois, puis à exploiter le meilleur. Les questions Q12–Q13 sont une application numérique et une implémentation Python. Les questions Q14–Q16, nettement plus techniques, majorent le regret moyen et optimisent \(m\) pour obtenir :
\(\mathbb{E}(\Delta_n) \leq \sqrt{8\alpha\beta\sqrt{n}} + \alpha\)
Stratégie UCB — Upper Confidence Bound (Q17–Q22)
La stratégie UCB choisit à chaque étape le bras maximisant un indice de confiance \(U_{i,j} = \hat{X}_{i,j} + \sqrt{\displaystyle\frac{\ln(n)}{N_{i,j}}}\). Les questions Q17–Q22 établissent progressivement que le regret moyen vérifie :
\(\mathbb{E}(\Delta_n) \leq 4\beta \ln(n) + 3\alpha\)
Cette borne logarithmique en \(n\) est bien supérieure à la borne en \(\sqrt{n}\) d’ETC, justifiant l’intérêt pratique de la stratégie UCB. C’est la partie la plus difficile du sujet.
Notions et chapitres testés
- Probabilités : inégalité de Markov, sous-additivité (union bound), indépendance, formule des probabilités totales.
- Variables aléatoires : espérance, variables de Bernoulli, transformée de Laplace (fonction génératrice des moments), variables bornées.
- Analyse : étude de fonction \(\mathcal{C}^2\), calcul de dérivées successives, convexité, optimisation continue, fonction exponentielle et logarithme.
- Statistiques : estimation par moyenne empirique, intervalle de confiance, inégalités de concentration.
- Informatique : Python (fonctions, boucles
for, numpy), SQL (SELECT,WHERE,COUNT,AVG).
Le sujet est très centré sur les probabilités et l’analyse, avec une composante informatique non négligeable. L’algèbre linéaire est totalement absente, ce qui est inhabituel pour un sujet ESSEC Maths 2.
Niveau de difficulté et comparaison aux années précédentes
Ce sujet se distingue par son thème applicatif très marqué : le problème du bandit manchot et les stratégies ETC/UCB n’étaient pas des classiques des annales ESSEC. Par rapport aux sujets 2023–2025, qui mêlaient typiquement algèbre linéaire (diagonalisation, réduction) et probabilités, l’édition 2026 fait un choix radical en se consacrant exclusivement aux probabilités, à l’analyse et à l’informatique.
Le début du sujet (Q1–Q7) est abordable : la démonstration guidée de l’inégalité de Hoeffding ne présente pas de difficulté conceptuelle majeure pour un candidat bien préparé. Les questions SQL et Python (Q8, Q12–Q13, Q19) sont accessibles et permettent de grappiller des points précieux même sans maîtriser les aspects théoriques avancés.
La difficulté monte significativement à partir de Q14. Les majorations du regret ETC (Q15–Q16) nécessitent une aisance certaine avec les inégalités exponentielles et l’optimisation. La partie UCB (Q17–Q22) est très exigeante : les raisonnements s’enchaînent avec peu de marge d’erreur, et les dernières questions (Q20–Q22) requièrent une vision d’ensemble du problème.
En résumé : un sujet légèrement au-dessus de la moyenne récente en difficulté, mais avec suffisamment de questions accessibles pour qu’un candidat solide obtienne un score honorable sans aller au bout du problème.
Pièges et points techniques délicats
Q1 — Rectificatif en séance : L’énoncé original contenait une erreur d’indice (\(B_k\) au lieu de \(B_i\) dans la formule). Un rectificatif a été distribué. Ce type de correction en cours d’épreuve peut déstabiliser : reste concentré sur le contenu mathématique, qui est ici une simple récurrence sur la sous-additivité.
Q2a — Calcul de \(f^{\prime\prime}(t)\) : Le calcul de la dérivée seconde de \(f(t) = \displaystyle\frac{t^2}{8} + \theta t – \ln(1 – \theta + \theta\, e^t)\) est technique. Il faut dériver \(\ln(g(t))\) où \(g(t) = 1 – \theta + \theta\, e^t\), puis dériver le quotient \(\displaystyle\frac{g^\prime(t)}{g(t)}\). L’astuce est de reconnaître que le résultat se factorise sous la forme \(\displaystyle\frac{(1-\theta-\theta\, e^t)^2}{4(1-\theta+\theta\, e^t)^2}\), qui est manifestement positive. Erreur fréquente : se tromper dans la dérivation du quotient et obtenir un signe ambigu.
Q2b — Minimum global : Pour conclure que \(f(t) \geq 0\), tu dois vérifier simultanément \(f(0) = 0\) et \(f^\prime(0) = 0\). Combiné à \(f^{\prime\prime}(t) \geq 0\) (convexité), cela prouve que \(t = 0\) est un minimum global. Oublier de vérifier \(f^\prime(0) = 0\) rend l’argument incomplet.
Q3 — Combinaison convexe : Pour appliquer la convexité de \(t \mapsto e^t\), tu dois écrire tout \(x \in [-\theta, 1-\theta]\) comme barycentre des extrémités : les poids sont \(\theta + x\) et \(1 – \theta – x\). Vérifie impérativement que ces deux poids sont bien dans \([0,1]\) et de somme 1 avant d’appliquer l’inégalité de convexité.
Q5a — Justification de l’indépendance : L’étape cruciale est la factorisation de l’espérance du produit en produit des espérances. Cette propriété repose sur l’indépendance des \(X_k\), qui doit être citée explicitement. N’oublie pas non plus de vérifier que chaque \(X_k – \mu\) satisfait les hypothèses de Q4 (centrée, à valeurs dans un segment de longueur 1).
Q15 — Décomposition du regret ETC : Il faut distinguer clairement la phase d’exploration (\(m\) tirages par bras, contribution fixe \(m\)) de la phase d’exploitation (\(n – mr\) tirages restants, contribution proportionnelle à \(\mathbb{P}(Z_m = i)\)). Le conditionnement par \(Z_m\) demande une rédaction rigoureuse.
Q21–Q22 — Enchaînement UCB : Les dernières questions forment un enchaînement de majorations où chaque étape utilise les résultats précédents. Perds le fil et tu ne peux plus avancer. Identifie clairement l’objectif de chaque sous-question avant de te lancer dans les calculs.
Méthodes attendues et stratégies de résolution
Q1 : Inégalité de Boole
Procède par récurrence sur \(k\) en utilisant \(\mathbb{P}(A \cup B) \leq \mathbb{P}(A) + \mathbb{P}(B)\) à chaque étape d’hérédité. Une preuve directe par inclusion-exclusion tronquée fonctionne aussi.
Q2–Q4 : Propriété de sous-gaussianité
Le fil conducteur est linéaire : calcul de dérivées → convexité de \(f\) → minimum en \(t=0\) → inégalité exponentielle → combinaison convexe de \(e^t\) → passage à l’espérance avec \(\mathbb{E}(X) = 0\). Chaque étape s’appuie sur la précédente. Rédige les transitions avec soin.
Astuce fondamentale (Markov + exponentielle) : La technique \(\mathbb{P}(X \geq a) = \mathbb{P}(e^{tX} \geq e^{ta}) \leq e^{-ta}\,\mathbb{E}(e^{tX})\) pour \(t \geq 0\) est le pivot de tout le sujet. Elle transforme un contrôle de probabilité en un contrôle de la transformée de Laplace, souvent plus maniable grâce à l’indépendance. Retiens ce réflexe : il sert aux questions Q5, Q14 et Q17.
Q5–Q7 : Hoeffding et intervalle de confiance
Pour Q5a, applique l’inégalité de Markov à \(e^{t(\bar{X}_n – \mu)}\), exploite l’indépendance pour factoriser, puis utilise Q4 sur chaque facteur. L’optimisation en \(t\) (annuler la dérivée de \(-t\varepsilon + \displaystyle\frac{t^2}{8n}\)) donne \(t = 4n\varepsilon\). Pour Q6, applique Q5 aux variables \(1 – X_k\). Pour Q7, combine les deux bornes et résous \(2\exp(-2n\varepsilon^2) = \alpha\).
Q8 : SQL
Pour Q8a : SELECT Action FROM Bandit WHERE Numero = 100. Pour Q8c, utilise COUNT(*) avec un double filtre. Pour Q8d, un AVG(Recompense) filtré sur l’action concernée suffit. Si \(N_{2,n}(\omega) \geq 100\), la moyenne empirique est une bonne estimation de \(p_2\) par la loi des grands nombres.
Q9–Q11 : Espérance et regret de base
Utilise la formule des probabilités totales pour décomposer \(\mathbb{E}(Y_j)\) selon les valeurs de \(I_j\). Le regret se réécrit \(\mathbb{E}(\Delta_n) = \sum \delta_i\,\mathbb{E}(N_{i,n})\). Pour la stratégie uniforme (Q11), \(\mathbb{E}(N_{i,n}) = \displaystyle\frac{n}{r}\) et le regret est \(\displaystyle\frac{n}{r}\sum \delta_i\).
Q14–Q16 : Optimisation du regret ETC
Applique Hoeffding aux moyennes empiriques après \(m\) tirages pour borner les probabilités d’erreur. La majoration de \(\mathbb{E}(N_{i,n})\) passe par le contrôle de \(\mathbb{P}(\hat{X}_{i,mr} \geq \hat{X}_{s,mr})\) via une union bound sur les deux erreurs possibles (surestimation du bras \(i\) et sous-estimation du bras optimal). L’optimisation finale utilise \(e^{-x} \leq \displaystyle\frac{1}{xe}\) pour \(x \geq 0\) et le choix judicieux de \(m\).
Q17–Q22 : Stratégie UCB
Q17 est une application directe de Hoeffding à la moyenne empirique. Q19 demande de compléter une fonction Python implémentant l’algorithme UCB (boucle sur les actions, mise à jour des indices de confiance). Pour Q20–Q22, on borne \(\mathbb{E}(N_{i,n})\) par \(u + \mathbb{P}(A_{i,u}) \cdot n\), puis on majore \(\mathbb{P}(A_{i,u})\) en contrôlant séparément les bornes de confiance du bras optimal et du bras sous-optimal. Le choix \(u = \left\lfloor \displaystyle\frac{4\ln(n)}{\delta_i^2}\right\rfloor + 1\) est guidé par l’objectif de décroissance en \(\displaystyle\frac{1}{n}\).
Conseils pour les futurs candidats
Ce sujet confirme une tendance des épreuves ESSEC Maths 2 Appli : un fil conducteur applicatif qui structure l’ensemble du problème, avec une progression du simple vers le complexe. Voici les axes de travail prioritaires :
- Maîtrise parfaite de l’inégalité de Hoeffding : sa démonstration complète (de Markov jusqu’à l’intervalle de confiance) est un classique qui revient régulièrement. Entraîne-toi à la reproduire intégralement sans hésitation.
- Technique « exponentielle + Markov » : ce réflexe est transversal à tout le sujet. Travaille-le sur plusieurs énoncés d’annales pour qu’il devienne automatique.
- Convexité de \(t \mapsto e^t\) : l’écriture d’inégalités via des combinaisons convexes est un outil récurrent en probabilités appliquées. Assure-toi de savoir l’utiliser proprement.
- Python et SQL : les questions d’informatique sont souvent accessibles et rapportent des points précieux. Révise les agrégations SQL (
COUNT,AVG,SUM) et la manipulation de tableaux numpy (indexation, boucles, fonctions mathématiques). - Gestion du temps : dans un sujet de 22 questions, identifie rapidement les questions indépendantes (Q1, Q8, Q11, Q12) que tu peux traiter sans avoir résolu les précédentes. Commence par sécuriser ces points.
- Culture en apprentissage par renforcement : sans être au programme, une familiarité avec les problèmes de décision séquentielle (exploration vs exploitation) te permettra de comprendre plus vite la motivation de l’énoncé et de gagner en fluidité de lecture.