Rédigé et vérifié par un professeur diplômé de l’École Polytechnique, avec le niveau d’exigence attendu en classe préparatoire. Découvrir le professeur

En probabilités, l’inégalité de Cauchy-Schwarz prend une forme remarquablement puissante : appliquée à l’espérance, elle borne la corrélation entre deux variables aléatoires et permet de démontrer en quelques lignes l’inégalité de Bienaymé-Tchebychev. Cette version probabiliste est un cas particulier de Cauchy-Schwarz dans un espace euclidien — ou plus précisément un espace préhilbertien. Tu trouveras ici les deux formes de l’inégalité, la démonstration exigible, le cas d’égalité, et trois exercices corrigés de niveau colle et concours.

I. Le cadre probabiliste — espace L² et produit scalaire

Fixons un espace probabilisé \((\Omega, \mathcal{A}, P)\). On note \(L^2(\Omega, \mathcal{A}, P)\) — ou simplement \(L^2\) — l’ensemble des variables aléatoires réelles de carré intégrable :

\(L^2 = \{ X : \Omega \to \mathbb{R} \mid E(X^2) < +\infty \}\)

Cet espace est un espace vectoriel réel (on peut additionner deux v.a.r. de \(L^2\) et les multiplier par un scalaire, et le résultat reste dans \(L^2\)). Il porte deux structures de produit scalaire naturelles.

Produit scalaire en espérance

Pour \(X, Y \in L^2\), on pose :

\(\langle X, Y \rangle = E(XY)\)

La norme associée est \(\|X\|_2 = \sqrt{E(X^2)}\).

Produit scalaire en covariance

Pour \(X, Y \in L^2\), on pose :

\(\langle X, Y \rangle_{\mathrm{cov}} = \mathrm{Cov}(X, Y) = E\!\big((X – E(X))(Y – E(Y))\big)\)

La norme associée est l’écart-type \(\sigma_X = \sqrt{\mathrm{Var}(X)}\).

La première forme définit un produit scalaire sur \(L^2\) (à quotient près par l’égalité presque sûre). La seconde est un produit scalaire sur le sous-espace des variables centrées, ou encore une forme bilinéaire symétrique positive sur \(L^2\) tout entier, dégénérée uniquement sur les constantes.

L’espace \(L^2\) est en général de dimension infinie — c’est un espace préhilbertien, pas un espace euclidien au sens strict du programme CPGE (dimension finie). Mais l’inégalité de Cauchy-Schwarz s’y applique exactement de la même façon : la démonstration ne requiert que la positivité du produit scalaire, pas la dimension finie.

Pont algèbre-probabilités. Reconnaître \(L^2\) comme un espace muni d’un produit scalaire permet de transposer tous les résultats d’algèbre bilinéaire : Cauchy-Schwarz, procédé de Gram-Schmidt, projection orthogonale. En concours, ce transfert est un outil puissant.


II. Énoncé de l’inégalité de Cauchy-Schwarz probabiliste

L’inégalité se décline en deux formes équivalentes, selon le produit scalaire choisi.

A. Forme en espérance

Théorème — Inégalité de Cauchy-Schwarz (forme espérance)

Soient \(X, Y \in L^2\). Alors :

\(E(XY)^2 \leq E(X^2) \cdot E(Y^2)\)

avec égalité si et seulement si \(X\) et \(Y\) sont colinéaires presque sûrement, c’est-à-dire \(\exists (\alpha, \beta) \neq (0, 0),\; \alpha X + \beta Y = 0\) p.s.

En termes de norme \(L^2\), cela s’écrit \(|E(XY)| \leq \|X\|_2 \cdot \|Y\|_2\), ce qui est exactement l’inégalité de Cauchy-Schwarz dans l’espace préhilbertien \((L^2, \langle \cdot, \cdot \rangle)\).

B. Forme en covariance

Théorème — Inégalité de Cauchy-Schwarz (forme covariance)

Soient \(X, Y \in L^2\). Alors :

\(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\)

avec égalité si et seulement si \(Y\) est une fonction affine de \(X\) presque sûrement : \(\exists (a, b) \in \mathbb{R}^2,\; Y = aX + b\) p.s.

La forme covariance se déduit immédiatement de la forme espérance en appliquant celle-ci aux variables centrées \(\tilde{X} = X – E(X)\) et \(\tilde{Y} = Y – E(Y)\). C’est cette forme qui intervient le plus souvent en pratique — notamment pour borner le coefficient de corrélation.

Pour l’énoncé général dans un espace euclidien quelconque, consulte la page dédiée : inégalité de Cauchy-Schwarz.

🎁 EN BONUS

Cauchy-Schwarz probabiliste — la fiche de synthèse

Les deux formes, la démonstration en 6 lignes, le cas d’égalité et le coefficient de corrélation : tout sur une page recto.

📄 Télécharger la fiche PDF

Idéal pour réviser avant une colle ou un DS.


III. Démonstration et cas d’égalité

A. Démonstration par le discriminant ⋆

Cette preuve est exigible en colle et en concours. Elle repose sur un unique argument : la positivité de \(E(Z^2)\) pour toute v.a.r. \(Z\).

Cas préliminaire. Si \(E(Y^2) = 0\), alors \(Y = 0\) p.s. et l’inégalité est triviale (les deux membres valent \(0\)).

Cas général : \(E(Y^2)\) > \(0\). Pour tout \(t \in \mathbb{R}\), posons :

\(P(t) = E\!\big((X + tY)^2\big)\)

Puisqu’un carré est positif, on a \(P(t) \geq 0\) pour tout \(t \in \mathbb{R}\). En développant :

\(P(t) = E(X^2) + 2t\, E(XY) + t^2\, E(Y^2)\)

C’est un trinôme du second degré en \(t\), de coefficient dominant \(E(Y^2)\) > \(0\). Un trinôme à coefficients réels, positif ou nul pour tout \(t\), a un discriminant négatif ou nul :

\(\Delta = 4\, E(XY)^2 – 4\, E(X^2)\, E(Y^2) \leq 0\)

D’où :

\(E(XY)^2 \leq E(X^2) \cdot E(Y^2)\) ∎

B. Passage à la forme covariance

On applique la forme espérance aux variables centrées \(\tilde{X} = X – E(X)\) et \(\tilde{Y} = Y – E(Y)\) :

  • \(E(\tilde{X}^2) = \mathrm{Var}(X)\)
  • \(E(\tilde{Y}^2) = \mathrm{Var}(Y)\)
  • \(E(\tilde{X}\tilde{Y}) = \mathrm{Cov}(X, Y)\)

L’inégalité \(E(\tilde{X}\tilde{Y})^2 \leq E(\tilde{X}^2) \cdot E(\tilde{Y}^2)\) donne immédiatement :

\(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\) ∎

C. Cas d’égalité

L’égalité \(\Delta = 0\) équivaut à l’existence de \(t_0 \in \mathbb{R}\) tel que \(P(t_0) = 0\), c’est-à-dire :

\(E\!\big((X + t_0 Y)^2\big) = 0 \iff X + t_0 Y = 0 \text{ p.s.} \iff X = -t_0 Y \text{ p.s.}\)

Ainsi, égalité dans la forme espérance ⟺ \(X\) et \(Y\) sont proportionnelles p.s.

Pour la forme covariance, l’égalité \(\mathrm{Cov}(X, Y)^2 = \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\) signifie que les variables centrées \(\tilde{X}\) et \(\tilde{Y}\) sont proportionnelles p.s., soit :

\(\exists\, a \in \mathbb{R},\; Y – E(Y) = a\big(X – E(X)\big) \text{ p.s.} \iff Y = aX + b \text{ p.s.}\)

avec \(b = E(Y) – a\, E(X)\). Autrement dit : relation affine presque sûre.

Quelle démo retenir en kholle ? La preuve par le discriminant est la plus efficace : elle tient en 6 lignes et s’applique uniformément aux deux formes. C’est celle qu’attend le correcteur. N’oublie jamais de (1) traiter le cas \(E(Y^2) = 0\) séparément, et (2) expliciter le cas d’égalité si la question le demande.

Logo-excellence-maths
Progresser en prépa avec un prof de Polytechnique
Cours particuliers exigeants et bienveillants, adaptés à ton niveau et à ta filière. Des résultats concrets dès les premières semaines — premier cours satisfait ou remboursé.

IV. Application — le coefficient de corrélation linéaire

L’inégalité de Cauchy-Schwarz en forme covariance a une conséquence immédiate et fondamentale en statistiques.

Définition — Coefficient de corrélation linéaire

Pour \(X, Y \in L^2\) avec \(\mathrm{Var}(X)\) > \(0\) et \(\mathrm{Var}(Y)\) > \(0\), on définit :

\(\rho(X, Y) = \displaystyle\frac{\mathrm{Cov}(X, Y)}{\sigma_X \cdot \sigma_Y}\)

où \(\sigma_X = \sqrt{\mathrm{Var}(X)}\) et \(\sigma_Y = \sqrt{\mathrm{Var}(Y)}\).

Propriété immédiate. Par Cauchy-Schwarz :

\(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y) \iff \rho(X, Y)^2 \leq 1 \iff -1 \leq \rho(X, Y) \leq 1\)

Les cas extrêmes caractérisent la dépendance affine :

  • \(\rho(X, Y) = 1 \iff Y = aX + b\) p.s. avec \(a\) > \(0\) (relation affine croissante)
  • \(\rho(X, Y) = -1 \iff Y = aX + b\) p.s. avec \(a\) < \(0\) (relation affine décroissante)
  • \(\rho(X, Y) = 0\) signifie que \(X\) et \(Y\) sont décorrélées (mais pas nécessairement indépendantes)
Interpretation geometrique dans L2 : deux vecteurs centres formant un angle theta, le coefficient de correlation jouant le role du cosinus de cet angle.

Interprétation géométrique. Dans l’espace \(L^2\), si l’on munit le sous-espace des variables centrées du produit scalaire \(\mathrm{Cov}\), le coefficient \(\rho(X, Y)\) joue le rôle du cosinus de l’angle entre les vecteurs \(\tilde{X}\) et \(\tilde{Y}\). Cauchy-Schwarz garantit que ce cosinus est bien dans \([-1, 1]\), exactement comme dans un espace euclidien de dimension finie.


V. Exercices corrigés pas à pas

Exercice 1 — Majoration d’un moment (★ entraînement MPSI)

Soit \(X\) une v.a.r. telle que \(E(X^2) = 2\) et \(E(X^4) = 10\). Montrer que \(|E(X^3)| \leq 2\sqrt{5}\).

Voir la correction

On applique Cauchy-Schwarz au couple \((X,\, X^2)\). Vérifions que les deux sont dans \(L^2\) :

  • \(E(X^2) = 2\) < \(+\infty\) donc \(X \in L^2\)
  • \(E\!\big((X^2)^2\big) = E(X^4) = 10\) < \(+\infty\) donc \(X^2 \in L^2\)

L’inégalité de Cauchy-Schwarz donne :

\(E(X \cdot X^2)^2 \leq E(X^2) \cdot E\!\big((X^2)^2\big)\)

soit \(E(X^3)^2 \leq 2 \times 10 = 20\), d’où \(|E(X^3)| \leq \sqrt{20} = 2\sqrt{5}\). ∎


Exercice 2 — Régression et projection orthogonale (★★ kholle MP)

Soient \(X, Y \in L^2\) avec \(\mathrm{Var}(X)\) > \(0\).

  1. Pour \(t \in \mathbb{R}\), exprimer \(\mathrm{Var}(Y – tX)\) en fonction de \(\mathrm{Var}(X)\), \(\mathrm{Var}(Y)\) et \(\mathrm{Cov}(X, Y)\).
  2. En déduire que \(\mathrm{Var}(Y – tX)\) est minimale pour \(t_0 = \displaystyle\frac{\mathrm{Cov}(X, Y)}{\mathrm{Var}(X)}\).
  3. En calculant \(\mathrm{Var}(Y – t_0 X)\), retrouver l’inégalité \(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\).
  4. Interpréter géométriquement \(t_0\) dans \(L^2\).
Voir la correction

a) Par bilinéarité de la covariance :

\(\mathrm{Var}(Y – tX) = \mathrm{Var}(Y) – 2t\, \mathrm{Cov}(X, Y) + t^2\, \mathrm{Var}(X)\)

b) C’est un trinôme du second degré en \(t\) à coefficient dominant \(\mathrm{Var}(X)\) > \(0\). Son minimum est atteint pour :

\(t_0 = \displaystyle\frac{2\, \mathrm{Cov}(X, Y)}{2\, \mathrm{Var}(X)} = \displaystyle\frac{\mathrm{Cov}(X, Y)}{\mathrm{Var}(X)}\)

c) La valeur minimale vaut :

\(\mathrm{Var}(Y – t_0 X) = \mathrm{Var}(Y) – \displaystyle\frac{\mathrm{Cov}(X, Y)^2}{\mathrm{Var}(X)}\)

Or \(\mathrm{Var}(Y – t_0 X) \geq 0\) (la variance est toujours positive), donc :

\(\displaystyle\frac{\mathrm{Cov}(X, Y)^2}{\mathrm{Var}(X)} \leq \mathrm{Var}(Y) \iff \mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\) ∎

d) Le réel \(t_0\) est la pente de la droite de régression de \(Y\) en \(X\). Géométriquement, \(t_0 X + (E(Y) – t_0 E(X))\) est la projection orthogonale de \(Y\) sur le sous-espace engendré par \(\{1, X\}\) dans \(L^2\), pour le produit scalaire covariance. La quantité \(\mathrm{Var}(Y – t_0 X)\) mesure la variance résiduelle — l’erreur minimale de prédiction affine.


Exercice 3 — Bienaymé-Tchebychev via Cauchy-Schwarz (★★★ type oral Mines-Telecom PSI)

Soit \(X \in L^2\). On note \(\mu = E(X)\) et \(\sigma^2 = \mathrm{Var}(X)\).

  1. Soit \(\varepsilon\) > \(0\). En posant \(A = \{|X – \mu| \geq \varepsilon\}\) et en appliquant l’inégalité de Cauchy-Schwarz aux v.a.r. \(\mathbb{1}_A\) et \(|X – \mu|\), démontrer que \(P(|X – \mu| \geq \varepsilon) \leq \displaystyle\frac{\sigma^2}{\varepsilon^2}\).
  2. Construire une v.a.r. \(X\) réalisant l’égalité (on pourra supposer \(\varepsilon\) > \(\sigma\)).
Voir la correction

a) Les v.a.r. \(\mathbb{1}_A\) et \(|X – \mu|\) sont dans \(L^2\) (la première est bornée, la seconde car \(X \in L^2\)). Par Cauchy-Schwarz :

\(E\!\big(\mathbb{1}_A \cdot |X – \mu|\big)^2 \leq E(\mathbb{1}_A^2) \cdot E\!\big((X – \mu)^2\big) = P(A) \cdot \sigma^2\)

Or, sur l’événement \(A\), on a \(|X – \mu| \geq \varepsilon\), donc :

\(E\!\big(\mathbb{1}_A \cdot |X – \mu|\big) \geq \varepsilon \cdot E(\mathbb{1}_A) = \varepsilon \cdot P(A)\)

En combinant : \(\varepsilon^2 \cdot P(A)^2 \leq P(A) \cdot \sigma^2\).

  • Si \(P(A)\) > \(0\), on divise : \(P(A) \leq \displaystyle\frac{\sigma^2}{\varepsilon^2}\).
  • Si \(P(A) = 0\), l’inégalité est triviale.

D’où \(P(|X – \mu| \geq \varepsilon) \leq \displaystyle\frac{\sigma^2}{\varepsilon^2}\). ∎

b) Posons \(p = \displaystyle\frac{\sigma^2}{2\varepsilon^2}\). Puisque \(\varepsilon\) > \(\sigma\), on a \(0\) < \(p\) < \(\displaystyle\frac{1}{2}\). Définissons :

\(P(X = \mu + \varepsilon) = P(X = \mu – \varepsilon) = p, \quad P(X = \mu) = 1 – 2p\)

Alors \(E(X) = \mu\), \(\mathrm{Var}(X) = 2p\varepsilon^2 = \sigma^2\), et \(P(|X – \mu| \geq \varepsilon) = 2p = \displaystyle\frac{\sigma^2}{\varepsilon^2}\). L’égalité est atteinte. ∎

Ce que le correcteur attend. En oral, justifie systématiquement que les v.a.r. auxquelles tu appliques Cauchy-Schwarz sont bien dans \(L^2\). L’argument « \(\mathbb{1}_A\) est bornée donc de carré intégrable » doit apparaître explicitement. La question b) est un classique : le correcteur vérifie que tu sais construire un contre-exemple d’optimalité.


VI. Pièges classiques et rédaction concours

Piège n°1 — Oublier l’hypothèse L²

L’inégalité n’a de sens que si \(E(X^2)\) < \(+\infty\) et \(E(Y^2)\) < \(+\infty\). En concours, il faut toujours vérifier cette hypothèse avant d’appliquer Cauchy-Schwarz. Contre-exemple : si \(X\) suit une loi de Cauchy, \(E(X^2) = +\infty\) et l’inégalité ne s’applique pas.

Piège n°2 — Confondre les deux formes

Copie fautive : « Par Cauchy-Schwarz, \(\mathrm{Cov}(X, Y)^2 \leq E(X^2) \cdot E(Y^2)\). »

Diagnostic : mélange entre la forme espérance (membre de droite \(E(X^2) \cdot E(Y^2)\)) et la forme covariance (membre de gauche \(\mathrm{Cov}(X, Y)^2\)).

Correction : \(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\) ou bien \(E(XY)^2 \leq E(X^2) \cdot E(Y^2)\). Les deux formes sont correctes, mais il ne faut jamais croiser les membres.

Piège n°3 — Oublier le cas dégénéré dans la démonstration

Dans la preuve par le discriminant, l’argument « le trinôme est de degré 2 » suppose \(E(Y^2)\) > \(0\). Si \(E(Y^2) = 0\), il n’y a pas de trinôme. Le cas \(Y = 0\) p.s. doit être traité séparément (et l’inégalité est alors triviale : \(0 \leq 0\)).

Rédaction type en 6 lignes. En concours écrit, la démonstration de la forme espérance doit tenir en une demi-page maximum. Plan attendu :

  1. Traiter le cas \(E(Y^2) = 0\).
  2. Poser \(P(t) = E((X + tY)^2) \geq 0\) pour tout \(t\).
  3. Développer : trinôme de degré 2 en \(t\).
  4. Conclure par le discriminant.
  5. Cas d’égalité : \(\Delta = 0 \Rightarrow \exists\, t_0\) tel que \(X = -t_0 Y\) p.s.

VII. Questions fréquentes

Qu'est-ce que l'inégalité de Cauchy-Schwarz pour les variables aléatoires ?

C’est l’inégalité \(E(XY)^2 \leq E(X^2) \cdot E(Y^2)\), valable pour toute paire de variables aléatoires de carré intégrable. Sous forme covariance : \(\mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \cdot \mathrm{Var}(Y)\). Elle traduit le fait que le cosinus de l’angle entre deux vecteurs de \(L^2\) est dans \([-1, 1]\).

Comment démontrer Cauchy-Schwarz en probabilités ?

La preuve standard (exigible en concours) consiste à considérer le trinôme \(P(t) = E((X + tY)^2) \geq 0\) pour tout \(t \in \mathbb{R}\), puis à exploiter la positivité du discriminant. On traite d’abord le cas \(Y = 0\) p.s., puis on conclut par \(\Delta \leq 0\) dans le cas général.

Quelle est la différence entre la forme espérance et la forme covariance ?

La forme espérance \(E(XY)^2 \leq E(X^2) E(Y^2)\) utilise le produit scalaire \(\langle X, Y \rangle = E(XY)\). La forme covariance \(\mathrm{Cov}(X,Y)^2 \leq \mathrm{Var}(X) \mathrm{Var}(Y)\) utilise le produit scalaire \(\mathrm{Cov}\), ce qui revient à appliquer la première aux variables centrées. En pratique, la forme covariance est la plus utilisée (coefficient de corrélation, régression).

Pourquoi le coefficient de corrélation est-il compris entre −1 et 1 ?

Par définition, \(\rho(X, Y) = \displaystyle\frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y}\). L’inégalité de Cauchy-Schwarz sous forme covariance donne \(|\mathrm{Cov}(X, Y)| \leq \sigma_X \sigma_Y\), d’où \(|\rho(X, Y)| \leq 1\). Les cas \(\rho = \pm 1\) caractérisent une relation affine presque sûre entre \(X\) et \(Y\).

Comment le produit scalaire est-il lié à Cauchy-Schwarz ?

L’inégalité de Cauchy-Schwarz est une propriété de tout produit scalaire : \(|\langle u, v \rangle| \leq \|u\| \cdot \|v\|\). En probabilités, \(E(XY)\) et \(\mathrm{Cov}(X,Y)\) sont des produits scalaires sur \(L^2\), d’où les deux formes de l’inégalité. Consulte la page inégalité de Cauchy-Schwarz pour la forme générale dans un espace euclidien.

Quelle est la différence entre Cauchy-Schwarz pour les intégrales et pour les variables aléatoires ?

Les deux sont des cas particuliers de la même inégalité, mais dans des espaces différents. La version intégrale porte sur des fonctions de \(L^2(I)\) avec le produit scalaire \(\displaystyle\int_I fg\). La version probabiliste porte sur des variables de \(L^2(\Omega, P)\) avec le produit scalaire \(E(XY)\). La structure algébrique est identique ; seul l’espace change.


VIII. Pour aller plus loin

Tu maîtrises maintenant l’inégalité de Cauchy-Schwarz dans le cadre probabiliste. Pour approfondir :

Prolongement. En L3 et en data science, l’inégalité de Cauchy-Schwarz probabiliste intervient dans la théorie de l’estimation (borne de Cramér-Rao) et dans l’analyse en composantes principales (ACP), où le coefficient de corrélation mesure la part de variance expliquée par chaque composante.

Logo-excellence-maths
Tu vises les concours ? On t'y prépare.
Un professeur diplômé de Polytechnique t'accompagne toute l'année : colles blanches, méthodes de rédaction, exercices de concours ciblés. Résultats visibles dès le premier mois.