Une alternative robuste au maximum de vraisemblance: la $\rho$-estimation
Yannick Baraud, Lucien Birg\'e

TL;DR
This paper introduces the $ ho$-estimation method as a robust alternative to maximum likelihood estimation, highlighting its optimality and robustness properties through examples and connecting it to previous estimators.
Contribution
It presents the $ ho$-estimation framework, demonstrating its advantages over traditional estimators like MLE in terms of robustness and optimality across various statistical models.
Findings
$ ho$-estimators outperform MLE in robustness.
The method offers optimal properties in diverse frameworks.
Examples illustrate improved performance of $ ho$-estimators.
Abstract
This paper is based on our personal notes for the short course we gave on January 5, 2017 at Institut Henri Poincar\'e, after an invitation of the SFdS. Our purpose is to give an overview of the method of -estimation and of the optimality and robustness properties of the estimators built according to this procedure. This method can be viewed as the sequel of a long series of researches which were devoted to the construction of estimators with good properties in various statistical frameworks. We shall emphasize the connection between the -estimators and the previous ones, in particular the maximum likelihood estimator, and we shall show, via some typical examples, that the -estimators perform better from various points of view. ------ Cet article est fond\'e sur les notes du mini-cours que nous avons donn\'e le 5 janvier 2017 \`a l'Institut Henri Poincar\'e \`a…
Peer Reviews
No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.
Videos
No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.
Taxonomy
TopicsAdvanced Statistical Methods and Models · Statistical Methods and Inference · Advanced Statistical Process Monitoring
Une alternative robuste au maximum de vraisemblance: la -estimation
Yannick Baraud et Lucien Birgé
(1 juillet 2017)
Résumé
Cet article est fondé sur les notes du mini-cours que nous avons donné le 5 janvier 2017 à l’Institut Henri Poincaré à l’occasion d’une journée organisée par la Société Française de Statistique et consacrée à la Statistique Mathématique. Il vise à donner un aperçu de la méthode de -estimation comme alternative à celle du maximum de vraisemblance, ainsi que des propriétés d’optimalité et de robustesse des -estimateurs. Cette méthode s’inscrit dans une longue lignée de recherche initiée par de célèbres statisticiens tels que Sir Ronald Fisher, avec le maximum de vraisemblance dans les années 20, ou Lucien Le Cam, avec des estimateurs fondés sur des tests entre boules de Hellinger dans les années 70, et dont l’objectif a été de produire des méthodes d’estimation possédant de bonnes propriétés pour un ensemble de cadres statistiques aussi vaste que possible. Plus récemment, Birgé avec les d- puis T-estimateurs, a étendu les résultats de Le Cam dans diverses directions, en particulier la robustesse et l’adaptation. Nous mettrons en lumière les liens forts qui existent entre les -estimateurs et ces prédécesseurs, notamment les estimateurs du maximum de vraisemblance, mais montrerons également, au travers d’exemples choisis, que les -estimateurs les surpassent par bien des aspects.
1 Bref historique
Il y a bien longtemps que les statisticiens ont cherché une méthode générale pour construire, dans des contextes divers, des estimateurs disposant de bonnes propriétés, en particulier asymptotiques. En régression, il y a eu le minimum attribué à Pierre Simon de Laplace et les moindres carrés (minimum ) de Carl Friedrich Gauß autour des années 1800. Pour des modèles paramétriques généraux sur variables i.i.d. la méthode des moments est connue depuis longtemps et celle du maximum de vraisemblance, développée et popularisée d’abord par Sir Ronald Fisher dans les années 1920, a connu un succès considérable et elle est, aujourd’hui encore, très largement utilisée. L’estimateur du maximum de vraisemblance (en abrégé e.m.v.) est, en un certain sens, le premier estimateur à visées “universelles" dans la mesure où il s’applique à de très nombreux modèles statistiques et permet aussi de retrouver, en régression, la méthode des moindres carrés (maximum de vraisemblance pour des erreurs gaussiennes) ou du minimum (lorsque les erreurs ont une loi de Laplace).
L’e.m.v., qui a d’excellentes propriétés asymptotiques dans les modèles paramétriques réguliers, sous réserve de consistance, souffre néanmoins, dans un cadre général, de certains défauts connus depuis longtemps et mis en évidence par des statisticiens tels que Bahadur dès 1958 — cf. Bahadur (1958) — ou Le Cam — cf. Le Cam (1990) —, entre autres. Il n’est pas possible de construire une théorie générale de consistance des estimateurs du maximum de vraisemblance sans utiliser des hypothèses relativement fortes comme on peut le voir par exemple dans le livre de van der Vaart (1998). Le problème est encore plus délicat si l’on veut étudier les vitesses de convergence des e.m.v. Le Cam en était très conscient, cela apparaît dans ses écrits et il s’est efforcé de résoudre le problème en construisant — cf. Le Cam (1973) et (1975) — un estimateur qui est automatiquement consistant sous des hypothèses relativement faibles. C’était là une nouvelle tentative, plus féconde, pour fabriquer une méthode d’estimation “universelle", au moins pour les modèles en variables indépendantes.
C’est en se fondant sur ces travaux de Le Cam en vue de généraliser les choses à des variables non nécessairement indépendantes, en recherchant des vitesses de convergence et en étudiant leur optimalité éventuelle et leur robustesse, que le second auteur de cet article a construit ce qu’il a appelé les d-estimateurs dans Birgé (1983). Plus tard ceux-ci se sont transformés en T-estimateurs par l’adjonction de pénalités qui ont conduit à la sélection de modèle et l’adaptativité dans Birgé (2006). Néanmoins, les T-estimateurs, tout comme leurs prédécesseurs, souffrent encore de diverses limitations, en particulier la nécessité de travailler avec des modèles compacts, ce qui s’avère bien trop restrictif pour les applications à la régression.
Il est important de noter ici que ces différentes constructions, celle de Le Cam comme celles de Birgé, reposent sur la construction de familles de tests robustes (tests entre deux boules de Hellinger initialement). On peut d’ailleurs aussi interpréter le maximum de vraisemblance comme le résultat de la combinaison de nombreux tests de rapport de vraisemblances comme nous le verrons plus loin. C’est en partant d’une idée originale du premier auteur pour construire de nouvelles familles de tests — cf. Baraud (2011) — qu’est venue l’idée des -estimateurs. Ces nouveaux tests sont fondés sur l’idée suivante : étant donné trois lois de probabilité , et et i.i.d. de loi , on peut déduire un test entre et (comme meilleur approximant de ) d’une estimation du signe de la différence où désigne la distance de Hellinger.
Dans le cas de modèles compacts, les -estimateurs peuvent être vus comme une variante des T-estimateurs fondés également sur des tests robustes, mais ils permettent en outre de traiter des problèmes à modèles non compacts comme la régression linéaire en plan fixe ou aléatoire, avec des erreurs de lois très variées, ou des problèmes d’estimation de densités sous contraintes de forme. Comme les T-estimateurs ils sont robustes et permettent de considérer de nombreux modèles simultanément, d’où leurs propriétés d’adaptation, mais leurs performances vont très au-delà et permettent bien davantage que les T-estimateurs, par exemple l’estimation d’une densité unimodale sur de mode et support inconnus. Enfin, comme nous le verrons, dans des situations favorables, l’e.m.v. est un -estimateur ; la -estimation peut donc, dans une certaine mesure, être considérée comme une manière de rendre robuste la célèbre procédure introduite il y a près d’un siècle par Sir Ronald Fisher.
Ce qui va suivre peut être considéré comme une introduction (voire une incitation) à la lecture des articles suivants : Baraud, Birgé et Sart (2017), Baraud et Birgé (2016a) et Baraud et Birgé (2016b).
() ()
2 Quelques problèmes liés à l’utilisation des estimateurs du maximum de vraisemblance
2.1 Instabilité de la méthode du maximum de vraisemblance
On dispose d’un million d’observations que l’on suppose i.i.d. de loi uniforme sur , de paramètre inconnu et que l’on modélise donc comme telles. L’e.m.v. relatif à ce modèle est . Si toutes les observations suivent effectivement ce modèle avec sauf une seule d’entre elles qui, suite à une erreur de manipulation ou de transcription, vaut 100, alors le maximum de vraisemblance vaut 100 et l’erreur d’estimation de sera d’au moins 99. Il suffit donc d’une seule observation aberrante parmi un million pour rendre l’e.m.v. inopérant dans ce cadre.
Le même problème se pose pour l’estimation du paramètre de centrage de la gaussienne par la moyenne empirique, qui est aussi l’e.m.v. ; une seule observation aberrante peut conduire à une erreur d’estimation considérable, autrement dit l’e.m.v. n’est absolument pas robuste. Pour plus de détails sur la notion de robustesse, on pourra se référer à l’excellent livre de Peter Huber — Huber (1981) — et à sa bibliographie.
La détection d’une valeur aberrante en dimension 1 (ou 2) est en général relativement facile car on peut visualiser les données. En revanche, les choses se compliquent sérieusement en grande dimension !
2.2 Non-existence de l’estimateur du maximum de vraisemblance
Soit la densité sur définie par
[TABLE]
laquelle est symétrique, mais discontinue et non bornée en 0. Si l’on considère la famille de translation où et est un intervalle compact de , la vraisemblance s’écrit et tend vers l’infini dès que , quel que soit . On ne peut donc définir un e.m.v. Le même phénomène se produit pour tout modèle de translation pour lequel la densité n’est pas bornée.
Dans le cas où est donnée par (1), il est néanmoins facile de montrer que la médiane empirique va converger vers à vitesse . On peut même construire des intervalles de confiance non-asymptotiques pour ; ce n’est donc pas le problème qui est difficile à résoudre mais plutôt la méthode du maximum de vraisemblance qui est inadaptée à celui-ci.
Néanmoins, si l’on remplace le modèle initial par le modèle approché où est une discrétisation finie de l’intervalle , l’e.m.v. relatif à sera bien défini.
2.3 Le risque quadratique de l’e.m.v. peut être bien plus grand que le risque minimax
Soit un vecteur gaussien -dimensionnel de loi , où est la matrice identité de dimension . Étant donné un vecteur de , on note sa projection sur le sous-espace vectoriel de dimension engendré par les dernières coordonnées, sa norme euclidienne et l’espérance quand est la vraie valeur du paramètre.
Proposition 1**.**
Supposons que et considérons l’espace de paramètres
[TABLE]
Le risque quadratique de l’e.m.v. et le risque minimax sur vérifient respectivement
[TABLE]
On voit que le risque quadratique de l’e.m.v. sur peut être beaucoup plus grand que le risque minimax. La démonstration se trouve dans Birgé (2006).
Pour obtenir la borne supérieure du risque quadratique dans (2) il suffit de remplacer le modèle initial par le modèle approché et de construire l’e.m.v. sur ce qui donne . On vérifie alors que
[TABLE]
2.4 La valeur et les performances de l’e.m.v. dépendent du choix de la famille des densités
Que la valeur de l’e.m.v. dépende du choix que l’on fait des densités par rapport à une mesure dominante est à peu près évident et connu depuis longtemps. Qu’un choix inadapté puisse mener à des résultats catastrophiques, comme le montre l’exemple suivant, l’est sans doute nettement moins.
Proposition 2**.**
Soit une suite de v.a.r. i.i.d. de loi pour un réel inconnu. Pour tout , fixons la version de la densité de par rapport à la mesure de référence de la manière suivante :
[TABLE]
Alors, quelle que soit la vraie valeur de , sur un ensemble dont la -probabilité tend vers 1 quand tend vers l’infini, l’e.m.v. s’écrit et n’est donc pas consistant.
On trouvera la preuve de cette assertion dans Baraud et Birgé (2016b).
Si l’on remplace le modèle initial avec par sa restriction à et si l’on accepte de prendre pour maximum de vraisemblance un point maximisant la vraisemblance appproximativement seulement, le problème ne se posera plus.
2.5 Construction de l’e.m.v. sur un modèle approché
Nous venous de remarquer que certains des problèmes rencontrés par l’e.m.v. pouvaient être résolus en construisant l’estimateur non pas sur l’ensemble initial des paramètres mais sur un sous-ensemble de ayant de bonnes qualités d’approximation par rapport aux élements de . Maleureusement, l’utilisation de tels sous-ensembles approchants peut aussi conduire à d’autres ennuis comme le montre l’exemple suivant.
Considérons le problème d’estimation du paramètre à partir de l’observation d’un -échantillon dont la loi appartient à l’ensemble de probabilités avec et
[TABLE]
où désigne la loi uniforme sur l’intervalle pour . Si est petit le modèle plus simple des lois uniformes sur avec fournit une bonne approximation de . Comme la loi est un mélange de deux lois uniformes sur deux intervalles disjoints, la vraisemblance sur le modèle est constamment nulle sauf si toutes les observations appartiennent à l’un ou l’autre de ces deux intervalles ce qui arrive avec une probabilité
[TABLE]
Lorsque est grand devant et petit devant , cette probabilité est petite. Donc, en dehors de cet événement de petite probabilité, la méthode du maximum de vraisemblance sur le modèle approché ne fournit aucune estimation de .
2.6 Les modèles approchés
Si nous considérons les exemples précédents, nous pouvons constater que les problèmes liés à l’utilisation de l’e.m.v. sur un modèle statistique donné par une famille de lois peuvent souvent être en partie résolus en remplaçant le modèle initial par un modèle approché . Pour obtenir un résultat général fondé sur l’estimation sur des modèles approchés, il convient de s’assurer que, si l’on utilise comme modèle une famille de lois et si la vraie loi des observations est proche d’un élément de , le comportement de l’estimateur construit sur est à peu près le même que ce qu’il serait si appartenait effectivement à , c’est-à-dire que l’estimateur est robuste. Malheureusement l’e.m.v. ne l’est pas toujours, d’où la nécessité de le remplacer par un estimateur robuste permettant de travailler avec des modèles approchés de manière systématique.
3 Comment résoudre les problèmes précédents : une heuristique
Plaçons-nous ici dans le cadre d’un -échantillon et d’une famille de densités par rapport à une mesure de référence avec pour . Notons la probabilité de l’évènement quand les ont la loi , la vraisemblance de par
[TABLE]
et supposons, pour simplifier les choses, que , quels que soient et . Alors on sait que, si
[TABLE]
avec
[TABLE]
La quantité , dénommée affinité de Hellinger entre et , est seulement fonction des deux lois et et non pas du choix de la mesure dominante ni de celui des versions des densités et . Comme , tend vers [math] quand tend vers l’infini et l’on voit bien qu’en choisissant en fonction de celle des deux lois qui a la plus grande vraisemblance, on trouvera asymptotiquement la vraie loi des . On contrôle même les probabilités d’erreurs du test pour fixé :
[TABLE]
puisque presque sûrement. Le résultat s’étend immédiatement au cas d’un modèle fini et identifiable. En effet, pour tout ,
[TABLE]
donc, si
[TABLE]
alors
[TABLE]
Remarquons ici que la recherche de revient à faire simultanément tous les tests de rapport de vraisemblances entre les paires de avec en comparant à , ce qui revient à étudier le signe de
[TABLE]
et à choisir l’élément de accepté par tous ces tests simultanément, lequel existe toujours sous nos hypothèses.
Malheureusement, ce résultat ne s’étend pas sans hypothèses fortes au cas d’un ensemble infini ni à celui d’une vraie loi des n’appartenant pas à , même lorsque est très proche de l’ensemble en question. Une des raisons de cet échec est liée au fait que la fonction n’est pas bornée comme le montre l’exemple de la section 2.2. Les tests de rapport de vraisemblances évoqués ci-dessus reposent sur l’évaluation des rapports ou, de manière équivalente, sur les signes des quantités . Mais il faut noter que c’est la propriété magique de la fonction : qui fait que trouver un point de tel que pour tout équivaut à chercher le point qui maximise sur la fonction . Les fonctions de la forme avec sont les seules qui possèdent cette propriété mais elles ne sont pas bornées ce qui explique certains des problèmes que l’on rencontre avec la méthode du maximum de vraisemblance.
Néanmoins, l’idée même de rapport de vraisemblances nous dit que est d’autant plus « vraisemblable » comparé à que le rapport est plus grand ou que l’est. De manière heuristique, la valeur de
[TABLE]
permet de comparer la qualité de par rapport à celle de . Soit alors une fonction strictement croissante, bornée et telle que . On peut envisager de comparer, de manière analogue, la qualité de par rapport à celle de en remplaçant dans (5),
[TABLE]
de sorte que l’on puisse dire que la loi est d’autant moins bonne au vu des observations que
[TABLE]
Comme le meilleur est aussi le moins mauvais, on peut penser à choisir comme estimateur de la loi avec
[TABLE]
en supposant ici, pour simplifier l’exposé, que l’ existe (mais n’est pas nécessairement unique). Lorsque est la fonction et l’e.m.v.,
[TABLE]
On retrouve ainsi le maximum de vraisemblance parce que , mais cet argument ne fonctionne plus avec une fonction parce qu’alors
[TABLE]
Dans ce cas, on ne peut plus caractériser défini par (8) comme
[TABLE]
4 Les fondamentaux des -estimateurs
4.1 Cadre statistique et définitions
Comme nous voulons que ce qui va suivre s’applique aussi à des problèmes de régression pour lesquels les observations ne sont pas nécessairement i.i.d., nous allons travailler dans le cadre plus général suivant, en omettant délibérément un certain nombre de points techniques (en particulier liés à des problèmes de mesurabilité) qui ne pourraient que nuire à la clarté de cette présentation.
On observe et les v.a. sont indépendantes, de lois respectives , donc le vecteur a pour loi . Pour estimer à partir de on se donne un modèle statistique dominé par avec pour tout , et -p.p., les versions des densités pouvant être choisies de manière arbitraire. On associe ainsi à un ensemble de densités par rapport à et . Clairement, étant donné , l’ensemble des fonctions n’est pas unique mais nous passerons ici sur cet aspect technique comme indiqué précédemment, les résultats que nous présenterons ne dépendant pas du choix que l’on fait des versions de ces densités. Il est important de noter que nous ne supposons pas que mais seulement qu’il s’agit d’une loi produit.
On se donne sur une fonction vérifiant et l’on considère la famille de statistiques
[TABLE]
On définit alors un estimateur par
[TABLE]
Pour simplifier, ici comme dans toute la suite, nous supposerons que l’ est atteint donc que existe. Notons qu’il n’est pas nécessairement unique. Dans le cas général, il suffit de choisir pour un élément de qui minimise approximativement.
**Remarque **.
Comme , , donc
[TABLE]
et si l’on trouve un élément de tel que , alors c’est un -estimateur.
4.2 Choix de la fonction de perte
Pour évaluer les performances d’un estimateur de , nous utiliserons des fonctions de perte liées à la distance de Hellinger.
Définition 1**.**
Étant donné deux probabilités et et une mesure arbitraire qui domine et on définit la distance de Hellinger et l’affinité de Hellinger entre et par
[TABLE]
On notera que ces deux quantités ne dépendent ni du choix de ni de celui des versions des deux densités et et que
[TABLE]
Dans le cas des lois produits qui nous intéressent, soit et , nous considérerons la distance (également appelée ici distance de Hellinger, bien que ) définie par
[TABLE]
La qualité d’un estimateur de la vraie loi sera mesurée par son risque quadratique
[TABLE]
Un cas particulier important est celui de lois produits correspondant à des v.a. i.i.d. : et pour lequel .
4.3 Quelles conditions sur la fonction ?
Comme nous l’avons expliqué, l’idée de cette construction est de remplacer, dans le calcul de la log-vraisemblance, la fonction par une fonction bornée. Néanmoins, afin de préserver certaines des propriétés du log, en particulier d’obtenir un analogue de (4), il convient que la fonction ait certaines similitudes avec la fonction . Nous demanderons donc que soit continue et strictement croissante avec . Comme elle est bornée et continue, la fonction vérifie
[TABLE]
Le remplacement de par avec ne modifiant pas la valeur des -estimateurs, nous conviendrons de fixer donc et, comme nous voulons utiliser la distance de Hellinger pour mesurer les performances des -estimateurs, nous imposerons les relations suivantes :
Quelles que soient les densités , la probabilité et ,
[TABLE]
et
[TABLE]
où les constantes , et satisfont aux relations
[TABLE]
Pour que les rapports soient toujours bien définis, nous utilisons les conventions et pour tout .
La relation (9) montre que si est la vraie loi de et est bien plus proche de que ne l’est alors l’intégrale de gauche qui est l’espérance de est négative. Quant à (10) elle permet de contrôler la variance de la même quantité. Comme la fonction est bornée, on peut en déduire des inégalités de déviations de type Bernstein pour qui est une somme de variables indépendantes, bornées et dont on contrôle la variance. D’où l’importance de cette bornitude.
Dans la situation idéale où l’on aurait , on déduirait de (9) que
[TABLE]
et, en inversant les rôles de et , que
[TABLE]
parce que . Finalement, comme ,
[TABLE]
donc
[TABLE]
De même
[TABLE]
La première égalité est à rapprocher, dans le cadre i.i.d., de
[TABLE]
pourvu que les deux divergences de Kullback-Leibler, et , soient finies, ce qui n’est absolument pas garanti, étant inconnue.
Nous ignorons combien de fonctions satisfont aux relations (9) et (10) mais nous n’en connaissons que deux :
[TABLE]
la première fonction étant la plus simple et très proche de la fonction au voisinage de 1 puisque
[TABLE]
et
[TABLE]
Pour la fonction , , et , et pour la fonction , , et .
5 Les performances des -estimateurs
5.1 Un résultat général
La qualité d’un -estimateur défini par (8), mesurée par son risque quadratique , ne dépend que du modèle choisi et de la vraie loi . Plus précisément,
Théorème 1**.**
Pour toute mesure-produit , toute probabilité et tout réel positif ,
[TABLE]
où est une constante numérique universelle (on peut prendre ) et un terme de dimension locale (relative à ) du modèle .
En intégrant par rapport à l’inégalité précédente, on obtient, puisque ,
[TABLE]
Dans la suite, désignera une constante numérique qui pourra changer de ligne en ligne. La dimension est définie à partir des fluctuations du processus pour autour de son espérance sous . Dans un grand nombre de situations (mais pas toujours), on peut borner cette dimension uniformément en et par une quantité qui ne dépend que du modèle que l’on utilise. Dans ce cas, la borne (12) devient
[TABLE]
avec
[TABLE]
En particulier,
[TABLE]
On retrouve dans (13) une majoration classique du risque par la somme d’un terme d’approximation et d’un terme de dimension , lequel caractérise la “taille" du modèle . Cette formule met clairement en évidence la robustesse d’un tel estimateur à un écart possible de la vraie loi au modèle : si appartient au modèle le risque est majoré par la dimension de qui permet de contrôler le risque maximum sur par (14), sinon il faut y ajouter un terme d’approximation proportionnel à traduisant le fait que le modèle est inexact. Si l’erreur de modélisation est suffisamment faible, ce terme sera petit et la borne de risque comparable à celle que l’on obtient lorsque le modèle est exact.
5.2 Quelques cas particuliers
— Dans le cadre de l’estimation d’une densité à partir de observations i.i.d. de densité avec et d’un modèle , les -estimateurs prennent la forme avec et la borne de risque (13) s’écrit alors
[TABLE]
— Lorsque le modèle est de dimension métrique finie majorée par , ce qui signifie que l’on peut recouvrir toute boule de de rayon (avec ) par un nombre de boules de rayon majoré par , alors . Dans ce cas, les -estimateurs ont les mêmes performances que les T-estimateurs de Birgé (2006) mais, comme dans le cas des T-estimateurs, l’hypothèse de dimension métrique finie nécessite que l’espace métrique soit compact.
— Dans un cadre de régression à “plan fixé" pour lequel , est la mesure de Lebesgue sur et
[TABLE]
on utilise un modèle correspondant aux lois possibles des donné par
[TABLE]
où est une densité fixée et . Si la famille est incluse dans un espace vectoriel de dimension et la densité est unimodale, on peut montrer que en utilisant des arguments de classes de Vapnik. On perd alors un facteur dans les bornes de risque mais on s’est débarassé des hypothèses de compacité puisque peut être un espace vectoriel. Nous ignorons si un tel facteur logarithmique est nécessaire ou non si l’on se restreint à des estimateurs robustes au sens ci-dessus.
6 Liens entre -estimateurs et e.m.v.
Considérons un modéle paramétrique très simple dans lequel les sont supposées i.i.d. et uniformes sur . On peut montrer dans ce cas que, si le modèle est exact, c’est-à-dire si les sont effectivement i.i.d. et uniformes sur pour un , alors l’estimateur , qui est un estimateur du maximum de vraisemblance, est aussi un -estimateur. La différence entre l’e.m.v. et le -estimateur est que, si le modèle est légèrement inexact, le -estimateur donnera un résultat sensé, c’est-à-dire une estimation par une loi uniforme sur proche de la vraie loi, alors que le maximum de vraisemblance peut fort bien ne pas exister, par exemple si .
Dans un modèle paramétrique très régulier avec des observations i.i.d., si les estimateurs du maximum de vraisemblance sont consistants alors ce sont aussi des -estimateurs avec une probabilité tendant vers 1 lorsque — cf. le théorème 19 de Baraud, Birgé and Sart (2017) —.
Toujours dans un cadre i.i.d., si le modèle consiste en un ensemble convexe de densités par rapport à une mesure de référence , et que la fonction vaut ou , alors l’application
[TABLE]
admet un point selle sur car l’application est concave en pour fixé et convexe en pour fixé. Ce point selle est à la fois un -estimateur et l’e.m.v. sur . Ce résultat, qui repose sur un argument dû à Su Weijie (2016, communication personnelle), est démontré dans la section 6 de Baraud et Birgé (). Une telle situation, pour laquelle l’e.m.v. est un -estimateur et en a donc toutes les propriétés, se retrouve dans les exemples suivants:
- a)
l’ensemble des densités sur qui sont constantes par morceaux sur une partition fixée de de cardinal . Dans ce cas, notons que l’e.m.v. est alors l’histogramme associé à cette partition; 2. b)
l’ensemble des densités décroissantes sur ou croissantes sur ou unimodales sur avec un mode en 0. En particulier, l’estimateur de Grenander pour les densités décroissantes sur , qui est l’e.m.v., est un -estimateur; 3. c)
l’enveloppe convexe d’une nombre fini de densités (estimateurs préliminaires obtenus à partir d’un échantillon indépendant), ce qui nous fournit le cadre de l’agrégation convexe.
Un résultat analogue pour des cadres statistiques plus généraux que l’estimation de densité a été montré par Mathieu Sart (2017, communication personnelle).
En résumé, sous des conditions convenables, le maximum de vraisemblance est un -estimateur, exactement (cadre convexe) ou asymptotiquement (modèle paramétrique suffisamment régulier).
En revanche, si la vraie loi dévie un peu du modèle, il se peut, lorsque l’on ne se trouve pas dans le cadre de variables i.i.d. et d’un modèle convexe, que le maximum de vraisemblance en soit gravement affecté alors que les -estimateurs ne le seront que faiblement.
Pour en revenir à l’exemple de la section 2.3, nous allons vérifier que le -estimateur sur le modèle associé à l’espace des paramètres est l’estimateur du maximum de vraisemblance . Donc que son risque quadratique est borné par 5.
En choisissant comme mesure de réference la mesure ayant pour densité (par rapport à la mesure de Lebesgue sur ) la fonction
[TABLE]
les lois du modèle statistique ont pour densités respectives (par rapport à ) de sorte que le -estimateur du paramètre , au vu de la seule observation , ce qui correspond à dans (7), minimise l’application
[TABLE]
La fonction étant strictement croissante, le maximum, pour un fixé, est atteint lorsque (indépendamment de ) et le minimum en atteint au point . Le -estimateur du paramètre est donc l’estimateur du maximum de vraisemblance .
7 Extension
Afin de rendre cette présentation aussi simple que possible, nous nous sommes contentés jusqu’ici d’exposer la construction des -estimateurs sur un seul modèle mais, comme dans le cadre des T-estimateurs ou autres, il est possible de travailler avec une famille dénombrable de modèles simultanément en ajoutant à la statistique une pénalité.
Comme précédemment, chaque modèle est décrit par un ensemble de densités par rapport à , c’est-à-dire que pour tout . En outre, est affecté d’un poids avec
[TABLE]
de sorte que cette famille de poids peut être considérée comme une loi a priori sur l’ensemble des modèles. Pour simplifier la présentation et bien que ceci ne soit en aucun cas nécessaire, nous supposerons que tous nos modèles sont disjoints de sorte qu’à chaque loi correspond un unique tel que . On associe alors à chaque une pénalité telle que, pour tout ,
[TABLE]
où est une constante numérique et une fonction sur . Notons que si l’on ne dispose que d’un seul modèle , c’est-à-dire si , on peut fixer pour tout et .
Dans la situation type où ne dépend que du modèle , on peut prendre la fonction identiquement nulle et
[TABLE]
c’est-à-dire une pénalité constante sur chaque modèle.
Dans ce cadre, la définition des -estimateurs doit être modifiée comme suit. L’on définit
[TABLE]
et un -estimateur s’écrit avec . Tout -estimateur satisfait alors au résultat suivant.
Théorème 2**.**
Pour toute mesure-produit , toute probabilité et tout réel positif ,
[TABLE]
où dépend uniquemement de , et .
Dans la suite, comme ici, nous désignerons par des quantités qui peuvent dépendre de certains paramètres correspondant aux hypothèses que nous ferons, afin de les distinguer des constantes universelles notées ou . Lorsque la fonction est nulle et la pénalité est donnée par (18), (20) devient
[TABLE]
et, après intégration par rapport à ,
[TABLE]
Notons que si l’on utilisait le seul modèle , on déduirait de (13) que
[TABLE]
et l’inégalité (21) conduirait alors à un analogue de (13) avec un terme supplémentaire . Si est au plus du même ordre de grandeur que pour tout , on obtient l’exact analogue de (13) à la constante près et la sélection de modèle ne coûte rien au sens où la borne de risque obtenue n’est jamais beaucoup plus grande que celle que l’on obtiendrait en faisant un choix a priori d’un modèle dans la famille. Cette borne est en fait du même ordre de grandeur que celle que l’on obtiendrait en utilisant seulement le “meilleur" modèle, c’est-à-dire celui qui minimise en la quantité et optimise ainsi la borne (22).
8 Introduction aux propriétés des -estimateurs
Considérons d’abord ici la situation d’un seul modèle pour lequel la borne (12) est valide, c’est-à-dire que
[TABLE]
La quantité dépend en théorie de la loi des observations mais dans toutes les situations que nous avons étudiées il est possible de la majorer par une quantité qui ne dépend que du modèle et de . Dans ce cas, notre borne de risque devient
[TABLE]
Lorsque est un élément de la borne devient
[TABLE]
D’après (23), si , la borne ne se détériore pas plus que d’une quantité , ce qui signifie en particulier que la borne de risque reste stable (comme fonction de ) au voisinage de chaque point du modèle. Il s’agit là de la propriété fondamentale des -estimateurs que nous allons à présent illustrer. Pour ce faire, il conviendra de bien distinguer la vraie loi des observations du modèle statistique que nous introduisons pour construire nos estimateurs. La seule hypothèse que nous faisons sur est que c’est une loi produit (qui n’appartient pas nécessairement au modèle). Le choix du modèle est fondé sur certaines hypothèses dont on espère seulement qu’elles ne sont pas trop erronées si l’on veut que ne soit pas trop loin de .
Tous les modèles statistiques que nous considérerons dans la suite supposent les observations i.i.d. (alors qu’elles ne le sont pas forcément). Cela revient à choisir un modèle statistique pour la loi marginale des observations de sorte que
[TABLE]
Un -estimateur s’écrit donc avec alors que .
9 Robustesse
9.1 Robustesse à l’hypothèse d’équidistribution
Nous supposons ici qu’il existe une loi marginale telle que pour tous les indices où est un sous-ensemble de et si , la loi est arbitraire. Par exemple, si pour tout , (mesure de Dirac au point ) où les sont des points arbitraires, cela signifie que notre supposé -échantillon contient en fait valeurs atypiques (où désigne le cardinal de l’ensemble ). Nous pouvons alors écrire que
[TABLE]
et
[TABLE]
Il découle donc de (23) que
[TABLE]
- a)
Lorsque , c’est-à-dire lorsque les observations sont vraiment i.i.d. et que le modèle est exact, on obtient la borne comme attendu. 2. b)
Si les données ne sont pas exactement i.i.d., c’est-à-dire si , mais que son cardinal n’est pas trop grand devant , nous obtenons une borne de risque du même ordre de grandeur que la précédente. En particulier, le risque de l’estimateur reste stable à un possible écart à l’hypothèse d’équidistribution et notamment à la présence de quelques valeurs atypiques.
9.2 Robustesse à la contamination
Supposons à présent que les données sont vraiment i.i.d. et qu’il existe une loi et un nombre (typiquement petit) tels que
[TABLE]
où est une loi arbitraire. Cela revient à supposer qu’une proportion de l’échantillon est correctement modélisée par une loi du modèle, qu’une proportion est distribuée selon une loi quelconque et que ce dernier échantillon vient contaminer le premier.
Comme où désigne la distance en variation totale,
[TABLE]
de sorte que
[TABLE]
et (23) conduit alors à la borne de risque
[TABLE]
Cette borne reste donc stable à une contamination possible des données dans une proportion , tant que celle-ci n’est pas trop grande par rapport à .
10 Deux exemples
Nous allons à présent considérer deux types de modèles statistiques particuliers et étudier les propriétés des -estimateurs pour chacun d’eux. Nous ne reviendrons plus dans la suite sur les propriétés de robustesse vues ci-dessus.
10.1 Modèles de densités sous contrainte de forme
Nous supposerons ici que les variables sont i.i.d. de densité par rapport à la mesure de Lebesgue sur de sorte que et
[TABLE]
Pour simplifier, nous noterons pour .
Le modèle statistique consiste à supposer que appartient à une famille de densités définies par des propriétés qualitatives. Par exemple, est l’ensemble des densités décroissantes sur . Nous allons montrer comment on peut analyser les performances du -estimateur de sur ce type de modèles qui sont en général très gros (non-compacts pour la distance ) et pour lesquels il n’existe pas de vitesse d’estimation minimax.
Nous n’allons en fait pas traiter l’exemple typique des densités décroissantes sur puisque, comme nous l’avons dit précédemment, Su Weijie a démontré que dans cette situation le -estimateur coïncide exactement avec l’estimateur du maximum de vraisemblance, c’est-à-dire l’estimateur de Grenander, bien connu et très abondamment étudié — cf. par exemple Birgé (1989) et les références incluses dans cet article —.
Nous allons plutôt nous intéresser à un problème plus complexe en choisissant pour l’ensemble de toutes les densités qui sont monotones sur une demi-droite et nulles ailleurs. Cet ensemble contient les densités précédentes et plus généralement toutes les densités décroissantes sur un intervalle de la forme , mais aussi toutes celles qui sont croissantes sur un intervalle de la forme ainsi que toutes les densités des lois uniformes sur un intervalle compact. L’ensemble est stable par translation et changement d’échelle. Notre modèle statistique est donc
[TABLE]
Bien que ce modèle soit très riche (il n’existe pas de vitesse minimax sur un tel ensemble), le -estimateur sur n’est pas dégénéré, comme nous allons le voir, et nous allons pouvoir étudier ses propriétés à partir de l’inégalité (23).
Certains sous-ensembles de vont jouer un rôle tout à fait particulier dans l’analyse de . Ce sont les suivants : pour , soit l’ensemble des densités de qui sont constantes sur une partition de contenant au plus intervalles. Le “+2" correspond au fait qu’une densité constante par morceaux sur est nécessairement nulle sur les deux intervalles non bornés de la partition ; l’entier est donc le nombre maximal d’intervalles sur lesquels est non nulle. Notons que les ensembles sont croissants pour l’inclusion, contiennent donc tous qui est l’ensemble des densités uniformes sur un intervalle, et qu’ils sont stables par translation et changement d’échelle. Ils ne sont, en particulier, pas compacts.
Le résultat suivant est démontré dans Baraud et Birgé (2016a):
Proposition 3**.**
Quelle que soit la densité ,
[TABLE]
donc, en notant pour ,
[TABLE]
On a ainsi obtenu une borne de risque uniforme sur chaque ensemble , ce qui signifie que si , converge vers (dans le gros espace ) quand à vitesse (en termes de distance de Hellinger) presque paramétrique, c’est-à-dire en au facteur logarithmique près. Notons que cette vitesse ne dépend que du nombre de morceaux et non de leur longueur : on estime donc aussi bien une densité sur qu’une densité sur ou sur , puisque l’espace est stable par changement d’échelle. La vitesse ne dépend pas davantage de la norme infinie de la densité . La vitesse est (probablement) approximativement minimax et le facteur nécessaire (mais peut-être pas à cette puissance). En effet, il est connu que le risque minimax sur l’ensemble des densités sur , constantes par morceaux avec morceaux est au moins — cf. Birgé et Massart (1998) — et il est peu probable que la contrainte de monotonie permette de supprimer le .
La propriété fondamentale de stabilité exprimée par (23) (en prenant avec ) dit que
[TABLE]
Comme et dans sont arbitraires, on conclut que
[TABLE]
Donc, si est proche d’une densité pour un certain , la borne de risque précédente est pratiquement la même que celle que l’on obtiendrait pour .
Nous allons utiliser ce dernier résultat pour aller plus loin dans l’analyse des performances de . Pour , soit l’ensemble des densités de à support sur un intervalle compact (pouvant donc dépendre de ) et telles que
[TABLE]
L’ensemble est encore stable par translation et changement d’échelle et contient toutes les lois uniformes (correspondant à ). On établit dans Baraud et Birgé (2016a) le résultat d’approximation suivant.
Proposition 4**.**
Pour tout et
[TABLE]
Il découle alors de (24) que, si ,
[TABLE]
ce qui conduit à des bornes de risque de uniformes sur les sous-ensembles . Si n’est pas dans mais est proche d’un élément de alors le risque en est majoré par
[TABLE]
Comme et dans et sont arbitraires, on en déduit que
[TABLE]
On peut poursuivre l’analyse de notre borne de risque pour les -estimateurs si l’on a de l’information sur la manière dont les espaces approximent la densité inconnue . Supposons, par exemple, que pour un certain , donc . Pour tout , on peut l’approximer par la densité
[TABLE]
Comme
[TABLE]
. De plus,
[TABLE]
donc
[TABLE]
Il découle alors de (25) que, puisque est arbitraire, donc également,
[TABLE]
En choisissant , on obtient finalement une borne de risque
[TABLE]
qui est indépendante de , ce qui montre que converge à vitesse uniformément sur l’ensemble de toutes les lois exponentielles bien que l’estimateur n’ait pas été particulièrement conçu pour estimer de telles lois. Le résultat demeure valable pour les lois exponentielles translatées de densités avec .
La démarche précédente n’est pas spécifique à l’ensemble et l’on peut considérer d’autres exemples de familles de densités définies par des contraintes de forme et pour lesquelles les choses se passent à peu près de la même manière. On peut en particulier étudier — cf. Baraud et Birgé (2016a) — :
- a)
l’ensemble des densités monotones sur chaque élément d’une partition de en au plus intervalles; 2. b)
l’ensemble des densités dont la racine carrée est convexe ou concave sur chaque élément d’une partition de en au plus intervalles; 3. c)
l’ensemble des densités qui sont log-concaves sur , c’est-à-dire de la forme où est un intervalle de et une fonction concave. Par exemple, les lois gaussiennes, expontielles, de Laplace ou uniformes sont log-concaves. Dans ce cas ce sont les densités de la forme avec linéaire par morceaux qui vont jouer le rôle des fonctions constantes par morceaux de l’exemple précédent. En particulier, on peut montrer que le -estimateur défini sur ce gros espace de densités va converger à vitesse paramétrique (à des facteurs logarithmiques près) vers toutes les lois uniformes, exponentielles, ou de Laplace (pour lesquelles est effectivement linéaire par morceaux).
10.2 Le modèle de régression à plan aléatoire
10.2.1 Estimation sur un modèle
Nous supposons ici que les observations , sont indépendantes et de la forme et que notre modèle statistique est défini sur la base des hypothèses suivantes :
- (i)
les sont i.i.d. de loi inconnue; 2. (ii)
il existe une fonction dans un espace vectoriel de dimension telle que
[TABLE]
et les v.a.r. sont i.i.d. de densité unimodale par rapport à la mesure de Lebesgue sur .
Ceci signifie que le modèle que l’on va utiliser pour estimer la loi de est de la forme avec, pour tout ,
[TABLE]
Comme le critère permettant de calculer le -estimateur ne dépend que des rapports pour , il n’est pas nécessaire de connaitre la loi des pour le calculer.
Sous l’hypothèse que est unimodale et que un espace vectoriel de dimension , on peut montrer que
[TABLE]
On peut même remplacer l’hypothèse “unimodale" par “-modale" (qui a au plus modes) et par une classe de fonctions VC-subgraph d’indice et obtenir la même inégalité avec une constante dépendant alors de .
Dans cette situation, il découle de (23) que
[TABLE]
Pour analyser cette inégalité, notamment ce qu’elle dit de l’estimation d’une fonction de régression, et la comparer aux résultats habituels, il convient de supposer que le modèle de régression (26) est exact à ceci près que n’appartient pas nécessairement à et que les n’ont pas nécessairement la densité mais une densité , ce qui revient à dire que, pour tout ,
[TABLE]
Pour relier aisément la distance à une distance entre les fonctions de régression nous ferons maintenant l’hypothèse que ainsi que tous les éléments de sont bornés par une constante et que la densité est telle que
[TABLE]
c’est-à-dire que le carré de la distance de Hellinger entre les densités et est équivalent à lorsque . On sait que si le modèle de translation associé à est régulier (densités gaussienne, de Cauchy, de Laplace, etc.) alors et que si est la densité uniforme sur un intervalle. Dans ces conditions, on peut montrer que, pour tout ,
[TABLE]
avec des quantités et dépendant de nos hypothèses et
[TABLE]
Comme les paires et jouent des rôles symétriques pour le calcul de , (28) demeure vraie si, pour un ,
[TABLE]
Théorème 3**.**
Si la relation (28) est satisfaite, alors
[TABLE]
Ce résultat appelle quelques remarques:
- a)
il ne suppose rien sur la loi des ; 2. b)
il ne suppose rien non plus sur l’intégrabilité des erreurs et l’on peut parfaitement prendre par exemple la loi de Cauchy pour modéliser la loi des , de même que la vraie densité des erreurs peut être la loi de Cauchy; 3. c)
les termes et montrent que la borne reste stable à une possible erreur de spécification du modèle.
Pour analyser la borne de risque fournie par le Théorème 3, nous allons supposer que , (c’est-à-dire que notre modèle est exact) et que est une partie d’un sous-espace vectoriel de dimension engendré par les fonctions de sorte que
[TABLE]
Dans ce cas, en vertu de (30),
[TABLE]
Donc, par l’inégalité de Markov, avec une probabilité proche de 1,
[TABLE]
et, comme sur l’espace vectoriel toutes les normes sont équivalentes, cette relation implique que, avec une probabilité proche de 1,
[TABLE]
où la quantité dépend aussi de . Si on retrouve une vitesse de convergence paramétrique classique en (au facteur logarithmique près) mais la vitesse de convergence est plus rapide si . Par exemple, dans le cas d’erreurs de loi uniforme pour lequel , le -estimateur converge à vitesse (au facteur près) quand l’estimateur des moindres carrés ordinaire converge lui à vitesse . Si la densité des erreurs n’est pas bornée, et la convergence est encore plus rapide.
Nous insisterons ici sur le fait que les hypothèses que nous avons utilisées pour obtenir la borne générale (27) sont extrêmement faibles : aucune pour la loi ni la structure de l’espace vectoriel et une simple hypothèse d’unimodalité sur la densité des erreurs (que l’on peut d’ailleurs remplacer par une borne sur le nombre de modes de cette densité). Ceci contraste avec les hypothèses que l’on rencontre d’ordinaire pour traiter ce problème, en particulier pour contrôler le risque des estimateurs des moindres carrés. En contrepartie, on peut regretter la présence du facteur logarithmique dans nos bornes de risque puisque, dans certaines situations, on obtient, mais au prix d’hypothèses nettement plus fortes, des vitesses analogues sans le facteur logarithmique. En contrepartie, notre estimateur est robuste et ses performances ne seront que légèrement affectées par un petit nombre (petit devant ) d’observations aberrantes. A contrario, une seule paire suffisamment « exotique » peut complètement dérégler le comportement des estimateurs des moindres carrés.
10.2.2 Plusieurs modèles
Il est évidemment assez restrictif de ne travailler qu’avec une seule densité et un seul modèle mais, comme indiqué à la section 7, nous pouvons en fait utiliser plusieurs modèles simultanément de manière à faire varier la densité ainsi que l’espace . Nous pouvons considérer des -estimateurs construits à partir de familles dénombrables de densités pour modéliser et plusieurs familles d’espaces fonctionnels pour modéliser . Nous pouvons, par exemple, utiliser une famille où est un sous-ensemble d’un espace vectoriel de dimension ainsi qu’une famille dénombrable de densités, ce qui fournit une famille de modèles de la forme indexés par , un tel modèle correspondant à l’hypothèse (a priori inexacte) que
[TABLE]
Dans ce cadre, un -estimateur aura la forme avec et , . Comme nous l’avons vu, pour un modèle ,
[TABLE]
Soit alors une suite de nombres positifs tels que . Si nous fixons , nous trouvons que
[TABLE]
Nous pouvons donc fixer la pénalité de la manière suivante :
[TABLE]
Un -estimateur construit sur une telle famille de modèles aura alors un risque borné par
[TABLE]
Notons que, si et tous les éléments de sont uniforméments bornés par et si la densité vérifie la condition (29), les inégalités (28) seront satisfaites pour tout , ce qui conduira à une borne de risque de la forme
[TABLE]
11 Conclusion
L’intérêt principal des -estimateurs réside dans leur robustesse, comme le montre la borne (12), ce qui permet de travailler systématiquement avec des modèles approchés et de se protéger contre la présence éventuelle d’observations atypiques. Cette robustesse permet également de remplacer un modèle complexe par un ou plusieurs modèles plus simples de manière à optimiser le compromis entre l’erreur d’approximation et l’erreur d’estimation liée à la complexité du modèle sur lequel l’estimateur est construitet d’atteindre ainsi la vitesse optimale d’estimation (éventuellement à un facteur logarithmique près). De plus le -estimateur s’appuie sur des modèles de probabilités et ses performances ne dépendent ni de la mesure dominante ni du choix des densités.
Comme nous l’avons vu dans la section 2, toutes ces qualités ne sont pas partagées par l’estimateur du maximum de vraisemblance ou l’estimateur des moindres carrés en régression. En revanche le -estimateur, qui coïncide (asymptotiquement ou non) avec l’estimateur du maximum de vraisemblance dans un certain nombre de situations, bénéficie alors de ses propriétés d’optimalité.
Dans la section 2.5, nous avons mis en évidence un problème lié à l’utilisation du maximum de vraisemblance sur un modèle approché, nous allons voir à présent, en guise de conclusion, ce qui se passe si l’on remplace le maximum de vraisemblance par un -estimateur construit sur ce même modèle approché.
Retour sur l’exemple de la section 2.5.
Nous avons vu que la méthode du maximum de vraisemblance sur le modèle approchant ne fournissait, avec une probabilité proche de un, aucune estimation de . Une question naturelle est de savoir ce qui se passe si nous utilisons un -estimateur et quelles sont alors ses performances. Si l’on note la densité de la loi uniforme sur , le -estimateur de minimise sur l’application
[TABLE]
avec et . Or, pour tout et ,
[TABLE]
donc et
[TABLE]
Alors
[TABLE]
et un -estimateur est n’importe quel élément maximisant l’application
[TABLE]
En d’autres termes, calculer un -estimateur revient à rechercher un paramètre maximisant le nombre de données tombant dans l’intervalle quand l’e.m.v. recherche un paramètre pour lequel toutes les données appartiennent à . Mais un tel paramètre n’existe pas dès que l’on observe une valeur aberrante.
Étudions à présent les performances de . Soit et avec les vraies valeurs des paramètres de la loi de l’observation . Notre objectif est d’évaluer la probabilité
[TABLE]
Notons que sous , la loi jointe des variables est indépendante de et la valeur d’un -estimateur construit à partir des observations s’écrit sous la forme où est un -estimateur construit à partir des observations de sorte qu’il nous suffit d’étudier le cas .
Sous , le nombre de appartenant à l’intervalle suit une loi binomiale de paramètres et et deux situations peuvent alors se produire: soit , ce qui arrive avec une probabilité
[TABLE]
d’après l’inégalité de Hoeffding, soit auquel cas un -estimateur est un point arbitraire de où et est le plus grand des appartenant à l’intervalle . Sur l’évènement , . Par des calculs classiques,
[TABLE]
et
[TABLE]
Ainsi, pour tout -estimateur ,
[TABLE]
Ce résultat montre que pour toute loi , le -estimateur de construit sur le sous-modèle converge à la vitesse dès que alors même que, si n’est pas nul, la distance de Hellinger entre la vraie loi et le modèle est strictement positive et indépendante de . En plus d’illustrer la robustesse du -estimateur, cet exemple montre qu’une inégalité telle que (15) sur le risque du -estimateur en distance de Hellinger peut s’avérer pessimiste dans des cadres paramétriques pour lesquels notre objectif n’est pas d’estimer la loi de l’observation mais simplement son paramètre pour la perte euclidienne usuelle.
Références
- BAHADUR, (1958)
Bahadur, R. (1958).
Examples of inconsistency of maximum likelihood estimates.
Sankhya Ser.A, 20:207–210.
- Baraud, (2011)
Baraud, Y. (2011).
Estimator selection with respect to Hellinger-type risks.
Probab. Theory Related Fields, 151(1-2):353–401.
- (3)
Baraud, Y. and Birgé, L. (2016a).
Rho-estimators for shape restricted density estimation.
Stochastic Process. Appl., 126(12):3888–3912.
- (4)
Baraud, Y. and Birgé, L. (2016b).
Rho-estimators revisited: General theory and applications.
Technical report, http://arxiv.org/abs/1605.05051.
- Baraud et al., (2017)
Baraud, Y., Birgé, L., and Sart, M. (2017).
A new method for estimation and model selection:-estimation.
Invent. Math., 207(2):425–517.
- Birgé, (1983)
Birgé, L. (1983).
Approximation dans les espaces métriques et théorie de l’estimation.
Z. Wahrsch. Verw. Gebiete, 65(2):181–237.
- Birgé, (1989)
Birgé, L. (1989).
The Grenander estimator: a nonasymptotic approach.
Ann. Statist., 17(4):1532–1549.
- Birgé, (2006)
Birgé, L. (2006).
Model selection via testing: an alternative to (penalized) maximum likelihood estimators.
Ann. Inst. H. Poincaré Probab. Statist., 42(3):273–325.
- Birgé and Massart, (1998)
Birgé, L. and Massart, P. (1998).
Minimum contrast estimators on sieves: exponential bounds and rates of convergence.
Bernoulli, 4(3):329–375.
- Huber, (1981)
Huber, P. J. (1981).
Robust Statistics.
John Wiley & Sons, Inc., New York.
Wiley Series in Probability and Mathematical Statistics.
- Le Cam, (1973)
Le Cam, L. (1973).
Convergence of estimates under dimensionality restrictions.
Ann. Statist., 1:38–53.
- Le Cam, (1975)
Le Cam, L. (1975).
On local and global properties in the theory of asymptotic normality of experiments.
In Stochastic processes and related topics (Proc. Summer Res. Inst. Statist. Inference for Stochastic Processes, Indiana Univ., Bloomington, Ind., 1974, Vol. 1; dedicated to Jerzy Neyman), pages 13–54. Academic Press, New York.
- Le Cam, (1990)
Le Cam, L. (1990).
Maximum likelihood: An introduction.
Inter. Statist. Review, 58(2):153–171.
- van der Vaart, (1998)
van der Vaart, A. W. (1998).
Asymptotic statistics, volume 3 of Cambridge Series in Statistical and Probabilistic Mathematics.
Cambridge University Press, Cambridge.
The reference list from the paper itself. Each links out to its DOI / PubMed record.
- 1BAHADUR, (1958) Bahadur, R. (1958). Examples of inconsistency of maximum likelihood estimates. Sankhya Ser.A , 20:207–210.
- 2Baraud, (2011) Baraud, Y. (2011). Estimator selection with respect to Hellinger-type risks. Probab. Theory Related Fields , 151(1-2):353–401.
- 3(3) Baraud, Y. and Birgé, L. (2016 a). Rho-estimators for shape restricted density estimation. Stochastic Process. Appl. , 126(12):3888–3912.
- 4(4) Baraud, Y. and Birgé, L. (2016 b). Rho-estimators revisited: General theory and applications. Technical report, http://arxiv.org/abs/1605.05051.
- 5Baraud et al., (2017) Baraud, Y., Birgé, L., and Sart, M. (2017). A new method for estimation and model selection: ρ 𝜌 \rho -estimation. Invent. Math. , 207(2):425–517.
- 6Birgé, (1983) Birgé, L. (1983). Approximation dans les espaces métriques et théorie de l’estimation. Z. Wahrsch. Verw. Gebiete , 65(2):181–237.
- 7Birgé, (1989) Birgé, L. (1989). The Grenander estimator: a nonasymptotic approach. Ann. Statist. , 17(4):1532–1549.
- 8Birgé, (2006) Birgé, L. (2006). Model selection via testing: an alternative to (penalized) maximum likelihood estimators. Ann. Inst. H. Poincaré Probab. Statist. , 42(3):273–325.
