Rédigé et vérifié par un professeur diplômé de l’École Polytechnique, avec le niveau d’exigence attendu en classe préparatoire. Découvrir le professeur
En probabilités, l’inégalité de Cauchy-Schwarz prend une forme remarquablement puissante : appliquée à l’espérance, elle borne la corrélation entre deux variables aléatoires et permet de démontrer en quelques lignes l’inégalité de Bienaymé-Tchebychev. Cette version probabiliste est un cas particulier de Cauchy-Schwarz dans un espace euclidien — ou plus précisément un espace préhilbertien. Tu trouveras ici les deux formes de l’inégalité, la démonstration exigible, le cas d’égalité, et trois exercices corrigés de niveau colle et concours.
I. Le cadre probabiliste — espace L² et produit scalaire
Fixons un espace probabilisé \((\Omega, \mathcal{A}, P)\). On note \(L^2(\Omega, \mathcal{A}, P)\) — ou simplement \(L^2\) — l’ensemble des variables aléatoires réelles de carré intégrable :
\(L^2 = \{ X : \Omega \to \mathbb{R} \mid E(X^2) < +\infty \}\)
Cet espace est un espace vectoriel réel (on peut additionner deux v.a.r. de \(L^2\) et les multiplier par un scalaire, et le résultat reste dans \(L^2\)). Il porte deux structures de produit scalaire naturelles.
Produit scalaire en espérance
Pour \(X, Y \in L^2\), on pose :
\(\langle X, Y \rangle = E(XY)\)
La norme associée est \(\|X\|_2 = \sqrt{E(X^2)}\).
Produit scalaire en covariance
Pour \(X, Y \in L^2\), on pose :
\(\langle X, Y \rangle_{\mathrm{cov}} = \mathrm{Cov}(X, Y) = E\!\big((X – E(X))(Y – E(Y))\big)\)
La norme associée est l’écart-type \(\sigma_X = \sqrt{\mathrm{Var}(X)}\).
La première forme définit un produit scalaire sur \(L^2\) (à quotient près par l’égalité presque sûre). La seconde est un produit scalaire sur le sous-espace des variables centrées, ou encore une forme bilinéaire symétrique positive sur \(L^2\) tout entier, dégénérée uniquement sur les constantes.
L’espace \(L^2\) est en général de dimension infinie — c’est un espace préhilbertien, pas un espace euclidien au sens strict du programme CPGE (dimension finie). Mais l’inégalité de Cauchy-Schwarz s’y applique exactement de la même façon : la démonstration ne requiert que la positivité du produit scalaire, pas la dimension finie.
Pont algèbre-probabilités. Reconnaître \(L^2\) comme un espace muni d’un produit scalaire permet de transposer tous les résultats d’algèbre bilinéaire : Cauchy-Schwarz, procédé de Gram-Schmidt, projection orthogonale. En concours, ce transfert est un outil puissant.
II. Énoncé de l’inégalité de Cauchy-Schwarz probabiliste
L’inégalité se décline en deux formes équivalentes, selon le produit scalaire choisi.
A. Forme en espérance
Théorème — Inégalité de Cauchy-Schwarz (forme espérance)
Soient \(X, Y \in L^2\). Alors :
\(E(XY)^2 \leq E(X^2) \cdot E(Y^2)\)
avec égalité si et seulement si \(X\) et \(Y\) sont colinéaires presque sûrement, c’est-à-dire \(\exists (\alpha, \beta) \neq (0, 0),\; \alpha X + \beta Y = 0\) p.s.
En termes de norme \(L^2\), cela s’écrit \(|E(XY)| \leq \|X\|_2 \cdot \|Y\|_2\), ce qui est exactement l’inégalité de Cauchy-Schwarz dans l’espace préhilbertien \((L^2, \langle \cdot, \cdot \rangle)\).
B. Forme en covariance
Théorème — Inégalité de Cauchy-Schwarz (forme covariance)
Soient \(X, Y \in L^2\). Alors :
\(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\)
avec égalité si et seulement si \(Y\) est une fonction affine de \(X\) presque sûrement : \(\exists (a, b) \in \mathbb{R}^2,\; Y = aX + b\) p.s.
La forme covariance se déduit immédiatement de la forme espérance en appliquant celle-ci aux variables centrées \(\tilde{X} = X – E(X)\) et \(\tilde{Y} = Y – E(Y)\). C’est cette forme qui intervient le plus souvent en pratique — notamment pour borner le coefficient de corrélation.
Pour l’énoncé général dans un espace euclidien quelconque, consulte la page dédiée : inégalité de Cauchy-Schwarz.
Cauchy-Schwarz probabiliste — la fiche de synthèse
Les deux formes, la démonstration en 6 lignes, le cas d’égalité et le coefficient de corrélation : tout sur une page recto.
📄 Télécharger la fiche PDFIdéal pour réviser avant une colle ou un DS.
III. Démonstration et cas d’égalité
A. Démonstration par le discriminant ⋆
Cette preuve est exigible en colle et en concours. Elle repose sur un unique argument : la positivité de \(E(Z^2)\) pour toute v.a.r. \(Z\).
Cas préliminaire. Si \(E(Y^2) = 0\), alors \(Y = 0\) p.s. et l’inégalité est triviale (les deux membres valent \(0\)).
Cas général : \(E(Y^2)\) > \(0\). Pour tout \(t \in \mathbb{R}\), posons :
\(P(t) = E\!\big((X + tY)^2\big)\)
Puisqu’un carré est positif, on a \(P(t) \geq 0\) pour tout \(t \in \mathbb{R}\). En développant :
\(P(t) = E(X^2) + 2t\, E(XY) + t^2\, E(Y^2)\)
C’est un trinôme du second degré en \(t\), de coefficient dominant \(E(Y^2)\) > \(0\). Un trinôme à coefficients réels, positif ou nul pour tout \(t\), a un discriminant négatif ou nul :
\(\Delta = 4\, E(XY)^2 – 4\, E(X^2)\, E(Y^2) \leq 0\)
D’où :
\(E(XY)^2 \leq E(X^2) \cdot E(Y^2)\) ∎
B. Passage à la forme covariance
On applique la forme espérance aux variables centrées \(\tilde{X} = X – E(X)\) et \(\tilde{Y} = Y – E(Y)\) :
- \(E(\tilde{X}^2) = \mathrm{Var}(X)\)
- \(E(\tilde{Y}^2) = \mathrm{Var}(Y)\)
- \(E(\tilde{X}\tilde{Y}) = \mathrm{Cov}(X, Y)\)
L’inégalité \(E(\tilde{X}\tilde{Y})^2 \leq E(\tilde{X}^2) \cdot E(\tilde{Y}^2)\) donne immédiatement :
\(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\) ∎
C. Cas d’égalité
L’égalité \(\Delta = 0\) équivaut à l’existence de \(t_0 \in \mathbb{R}\) tel que \(P(t_0) = 0\), c’est-à-dire :
\(E\!\big((X + t_0 Y)^2\big) = 0 \iff X + t_0 Y = 0 \text{ p.s.} \iff X = -t_0 Y \text{ p.s.}\)
Ainsi, égalité dans la forme espérance ⟺ \(X\) et \(Y\) sont proportionnelles p.s.
Pour la forme covariance, l’égalité \(\mathrm{Cov}(X, Y)^2 = \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\) signifie que les variables centrées \(\tilde{X}\) et \(\tilde{Y}\) sont proportionnelles p.s., soit :
\(\exists\, a \in \mathbb{R},\; Y – E(Y) = a\big(X – E(X)\big) \text{ p.s.} \iff Y = aX + b \text{ p.s.}\)
avec \(b = E(Y) – a\, E(X)\). Autrement dit : relation affine presque sûre.
Quelle démo retenir en kholle ? La preuve par le discriminant est la plus efficace : elle tient en 6 lignes et s’applique uniformément aux deux formes. C’est celle qu’attend le correcteur. N’oublie jamais de (1) traiter le cas \(E(Y^2) = 0\) séparément, et (2) expliciter le cas d’égalité si la question le demande.
IV. Application — le coefficient de corrélation linéaire
L’inégalité de Cauchy-Schwarz en forme covariance a une conséquence immédiate et fondamentale en statistiques.
Définition — Coefficient de corrélation linéaire
Pour \(X, Y \in L^2\) avec \(\mathrm{Var}(X)\) > \(0\) et \(\mathrm{Var}(Y)\) > \(0\), on définit :
\(\rho(X, Y) = \displaystyle\frac{\mathrm{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}\)
où \(\sigma_X = \sqrt{\mathrm{Var}(X)}\) et \(\sigma_Y = \sqrt{\mathrm{Var}(Y)}\).
Propriété immédiate. Par Cauchy-Schwarz :
\(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y) \iff \rho(X, Y)^2 \leq 1 \iff -1 \leq \rho(X, Y) \leq 1\)
Les cas extrêmes caractérisent la dépendance affine :
- \(\rho(X, Y) = 1 \iff Y = aX + b\) p.s. avec \(a\) > \(0\) (relation affine croissante)
- \(\rho(X, Y) = -1 \iff Y = aX + b\) p.s. avec \(a\) < \(0\) (relation affine décroissante)
- \(\rho(X, Y) = 0\) signifie que \(X\) et \(Y\) sont décorrélées (mais pas nécessairement indépendantes)
Interprétation géométrique. Dans l’espace \(L^2\), si l’on munit le sous-espace des variables centrées du produit scalaire \(\mathrm{Cov}\), le coefficient \(\rho(X, Y)\) joue le rôle du cosinus de l’angle entre les vecteurs \(\tilde{X}\) et \(\tilde{Y}\). Cauchy-Schwarz garantit que ce cosinus est bien dans \([-1, 1]\), exactement comme dans un espace euclidien de dimension finie.
V. Exercices corrigés pas à pas
Exercice 1 — Majoration d’un moment (★ entraînement MPSI)
Soit \(X\) une v.a.r. telle que \(E(X^2) = 2\) et \(E(X^4) = 10\). Montrer que \(|E(X^3)| \leq 2\sqrt{5}\).
Voir la correction
On applique Cauchy-Schwarz au couple \((X,\, X^2)\). Vérifions que les deux sont dans \(L^2\) :
- \(E(X^2) = 2\) < \(+\infty\) donc \(X \in L^2\)
- \(E\!\big((X^2)^2\big) = E(X^4) = 10\) < \(+\infty\) donc \(X^2 \in L^2\)
L’inégalité de Cauchy-Schwarz donne :
\(E(X \cdot X^2)^2 \leq E(X^2) \cdot E\!\big((X^2)^2\big)\)
soit \(E(X^3)^2 \leq 2 \times 10 = 20\), d’où \(|E(X^3)| \leq \sqrt{20} = 2\sqrt{5}\). ∎
Exercice 2 — Régression et projection orthogonale (★★ kholle MP)
Soient \(X, Y \in L^2\) avec \(\mathrm{Var}(X)\) > \(0\).
- Pour \(t \in \mathbb{R}\), exprimer \(\mathrm{Var}(Y – tX)\) en fonction de \(\mathrm{Var}(X)\), \(\mathrm{Var}(Y)\) et \(\mathrm{Cov}(X, Y)\).
- En déduire que \(\mathrm{Var}(Y – tX)\) est minimale pour \(t_0 = \displaystyle\frac{\mathrm{Cov}(X, Y)}{\mathrm{Var}(X)}\).
- En calculant \(\mathrm{Var}(Y – t_0 X)\), retrouver l’inégalité \(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\).
- Interpréter géométriquement \(t_0\) dans \(L^2\).
Voir la correction
a) Par bilinéarité de la covariance :
\(\mathrm{Var}(Y – tX) = \mathrm{Var}(Y) – 2t\, \mathrm{Cov}(X, Y) + t^2\, \mathrm{Var}(X)\)
b) C’est un trinôme du second degré en \(t\) à coefficient dominant \(\mathrm{Var}(X)\) > \(0\). Son minimum est atteint pour :
\(t_0 = \displaystyle\frac{2\, \mathrm{Cov}(X, Y)}{2\, \mathrm{Var}(X)} = \displaystyle\frac{\mathrm{Cov}(X, Y)}{\mathrm{Var}(X)}\)
c) La valeur minimale vaut :
\(\mathrm{Var}(Y – t_0 X) = \mathrm{Var}(Y) – \displaystyle\frac{\mathrm{Cov}(X, Y)^2}{\mathrm{Var}(X)}\)
Or \(\mathrm{Var}(Y – t_0 X) \geq 0\) (la variance est toujours positive), donc :
\(\displaystyle\frac{\mathrm{Cov}(X, Y)^2}{\mathrm{Var}(X)} \leq \mathrm{Var}(Y) \iff \mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\) ∎
d) Le réel \(t_0\) est la pente de la droite de régression de \(Y\) en \(X\). Géométriquement, \(t_0 X + (E(Y) – t_0 E(X))\) est la projection orthogonale de \(Y\) sur le sous-espace engendré par \(\{1, X\}\) dans \(L^2\), pour le produit scalaire covariance. La quantité \(\mathrm{Var}(Y – t_0 X)\) mesure la variance résiduelle — l’erreur minimale de prédiction affine.
Exercice 3 — Bienaymé-Tchebychev via Cauchy-Schwarz (★★★ type oral Mines-Telecom PSI)
Soit \(X \in L^2\). On note \(\mu = E(X)\) et \(\sigma^2 = \mathrm{Var}(X)\).
- Soit \(\varepsilon\) > \(0\). En posant \(A = \{|X – \mu| \geq \varepsilon\}\) et en appliquant l’inégalité de Cauchy-Schwarz aux v.a.r. \(\mathbb{1}_A\) et \(|X – \mu|\), démontrer que \(P(|X – \mu| \geq \varepsilon) \leq \displaystyle\frac{\sigma^2}{\varepsilon^2}\).
- Construire une v.a.r. \(X\) réalisant l’égalité (on pourra supposer \(\varepsilon\) > \(\sigma\)).
Voir la correction
a) Les v.a.r. \(\mathbb{1}_A\) et \(|X – \mu|\) sont dans \(L^2\) (la première est bornée, la seconde car \(X \in L^2\)). Par Cauchy-Schwarz :
\(E\!\big(\mathbb{1}_A \cdot |X – \mu|\big)^2 \leq E(\mathbb{1}_A^2) \cdot E\!\big((X – \mu)^2\big) = P(A) \cdot \sigma^2\)
Or, sur l’événement \(A\), on a \(|X – \mu| \geq \varepsilon\), donc :
\(E\!\big(\mathbb{1}_A \cdot |X – \mu|\big) \geq \varepsilon \cdot E(\mathbb{1}_A) = \varepsilon \cdot P(A)\)
En combinant : \(\varepsilon^2 \cdot P(A)^2 \leq P(A) \cdot \sigma^2\).
- Si \(P(A)\) > \(0\), on divise : \(P(A) \leq \displaystyle\frac{\sigma^2}{\varepsilon^2}\).
- Si \(P(A) = 0\), l’inégalité est triviale.
D’où \(P(|X – \mu| \geq \varepsilon) \leq \displaystyle\frac{\sigma^2}{\varepsilon^2}\). ∎
b) Posons \(p = \displaystyle\frac{\sigma^2}{2\varepsilon^2}\). Puisque \(\varepsilon\) > \(\sigma\), on a \(0\) < \(p\) < \(\displaystyle\frac{1}{2}\). Définissons :
\(P(X = \mu + \varepsilon) = P(X = \mu – \varepsilon) = p, \quad P(X = \mu) = 1 – 2p\)
Alors \(E(X) = \mu\), \(\mathrm{Var}(X) = 2p\varepsilon^2 = \sigma^2\), et \(P(|X – \mu| \geq \varepsilon) = 2p = \displaystyle\frac{\sigma^2}{\varepsilon^2}\). L’égalité est atteinte. ∎
Ce que le correcteur attend. En oral, justifie systématiquement que les v.a.r. auxquelles tu appliques Cauchy-Schwarz sont bien dans \(L^2\). L’argument « \(\mathbb{1}_A\) est bornée donc de carré intégrable » doit apparaître explicitement. La question b) est un classique : le correcteur vérifie que tu sais construire un contre-exemple d’optimalité.
VI. Pièges classiques et rédaction concours
Piège n°1 — Oublier l’hypothèse L²
L’inégalité n’a de sens que si \(E(X^2)\) < \(+\infty\) et \(E(Y^2)\) < \(+\infty\). En concours, il faut toujours vérifier cette hypothèse avant d’appliquer Cauchy-Schwarz. Contre-exemple : si \(X\) suit une loi de Cauchy, \(E(X^2) = +\infty\) et l’inégalité ne s’applique pas.
Piège n°2 — Confondre les deux formes
❌ Copie fautive : « Par Cauchy-Schwarz, \(\mathrm{Cov}(X, Y)^2 \leq E(X^2) \cdot E(Y^2)\). »
Diagnostic : mélange entre la forme espérance (membre de droite \(E(X^2) \cdot E(Y^2)\)) et la forme covariance (membre de gauche \(\mathrm{Cov}(X, Y)^2\)).
✅ Correction : \(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\) ou bien \(E(XY)^2 \leq E(X^2) \cdot E(Y^2)\). Les deux formes sont correctes, mais il ne faut jamais croiser les membres.
Piège n°3 — Oublier le cas dégénéré dans la démonstration
Dans la preuve par le discriminant, l’argument « le trinôme est de degré 2 » suppose \(E(Y^2)\) > \(0\). Si \(E(Y^2) = 0\), il n’y a pas de trinôme. Le cas \(Y = 0\) p.s. doit être traité séparément (et l’inégalité est alors triviale : \(0 \leq 0\)).
Rédaction type en 6 lignes. En concours écrit, la démonstration de la forme espérance doit tenir en une demi-page maximum. Plan attendu :
- Traiter le cas \(E(Y^2) = 0\).
- Poser \(P(t) = E((X + tY)^2) \geq 0\) pour tout \(t\).
- Développer : trinôme de degré 2 en \(t\).
- Conclure par le discriminant.
- Cas d’égalité : \(\Delta = 0 \Rightarrow \exists\, t_0\) tel que \(X = -t_0 Y\) p.s.
VII. Questions fréquentes
Qu'est-ce que l'inégalité de Cauchy-Schwarz pour les variables aléatoires ?
C’est l’inégalité \(E(XY)^2 \leq E(X^2) \cdot E(Y^2)\), valable pour toute paire de variables aléatoires de carré intégrable. Sous forme covariance : \(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\). Elle traduit le fait que le cosinus de l’angle entre deux vecteurs de \(L^2\) est dans \([-1, 1]\).
Comment démontrer Cauchy-Schwarz en probabilités ?
La preuve standard (exigible en concours) consiste à considérer le trinôme \(P(t) = E((X + tY)^2) \geq 0\) pour tout \(t \in \mathbb{R}\), puis à exploiter la positivité du discriminant. On traite d’abord le cas \(Y = 0\) p.s., puis on conclut par \(\Delta \leq 0\) dans le cas général.
Quelle est la différence entre la forme espérance et la forme covariance ?
La forme espérance \(E(XY)^2 \leq E(X^2) E(Y^2)\) utilise le produit scalaire \(\langle X, Y \rangle = E(XY)\). La forme covariance \(\mathrm{Cov}(X,Y)^2 \leq \mathrm{Var}(X) \mathrm{Var}(Y)\) utilise le produit scalaire \(\mathrm{Cov}\), ce qui revient à appliquer la première aux variables centrées. En pratique, la forme covariance est la plus utilisée (coefficient de corrélation, régression).
Pourquoi le coefficient de corrélation est-il compris entre −1 et 1 ?
Par définition, \(\rho(X, Y) = \displaystyle\frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}\). L’inégalité de Cauchy-Schwarz sous forme covariance donne \(|\mathrm{Cov}(X, Y)| \leq \sigma_X \sigma_Y\), d’où \(|\rho(X, Y)| \leq 1\). Les cas \(\rho = \pm 1\) caractérisent une relation affine presque sûre entre \(X\) et \(Y\).
Comment le produit scalaire est-il lié à Cauchy-Schwarz ?
L’inégalité de Cauchy-Schwarz est une propriété de tout produit scalaire : \(|\langle u, v \rangle| \leq \|u\| \cdot \|v\|\). En probabilités, \(E(XY)\) et \(\mathrm{Cov}(X,Y)\) sont des produits scalaires sur \(L^2\), d’où les deux formes de l’inégalité. Consulte la page inégalité de Cauchy-Schwarz pour la forme générale dans un espace euclidien.
Quelle est la différence entre Cauchy-Schwarz pour les intégrales et pour les variables aléatoires ?
Les deux sont des cas particuliers de la même inégalité, mais dans des espaces différents. La version intégrale porte sur des fonctions de \(L^2(I)\) avec le produit scalaire \(\displaystyle\int_I fg\). La version probabiliste porte sur des variables de \(L^2(\Omega, P)\) avec le produit scalaire \(E(XY)\). La structure algébrique est identique ; seul l’espace change.
VIII. Pour aller plus loin
Tu maîtrises maintenant l’inégalité de Cauchy-Schwarz dans le cadre probabiliste. Pour approfondir :
- Inégalité de Cauchy-Schwarz — la forme générale dans un espace euclidien, avec quatre démonstrations comparées
- Cauchy-Schwarz pour les intégrales — la version dans \(L^2(I)\) avec des exercices type analyse
- Espace euclidien — le cours complet sur les espaces euclidiens (CPGE)
- Théorème spectral — applications en algèbre bilinéaire
- Endomorphismes auto-adjoints — propriétés spectrales et diagonalisation orthogonale
Prolongement. En L3 et en data science, l’inégalité de Cauchy-Schwarz probabiliste intervient dans la théorie de l’estimation (borne de Cramér-Rao) et dans l’analyse en composantes principales (ACP), où le coefficient de corrélation mesure la part de variance expliquée par chaque composante.