loading

Logout succeed

Logout succeed. See you again!

ebook img

Statistique non paramétrique Master 2 Économétrie et Statistique Appliquée PDF

pages110 Pages
release year2017
file size1.06 MB
languageFrench

Preview Statistique non paramétrique Master 2 Économétrie et Statistique Appliquée

Statistique non paramétrique Master 2 Économétrie et Statistique Appliquée GilbertColletaz 13octobre2017 2 Table des matières 1 Introduction 5 1.0.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.0.2 testsparamétriquesetnonparamétriques . . . . . . . . . 6 1.0.3 Lanaturedesobservations:leséchellesdemesure . . . 7 1.0.4 Lescaractéristiquesusuellesd’unedistribution . . . . . 8 2 Testssurunseuléchantillon 23 2.1 Testd’hypothèsesurladistribution. . . . . . . . . . . . . . . . . 23 2.1.1 LestestsEDF:Kolmogorov-Smirnov,Anderson-Darling, Cramer-vonMises . . . . . . . . . . . . . . . . . . . . . . 24 2.1.2 LetestdeShapiro-Wilk . . . . . . . . . . . . . . . . . . . 27 2.1.3 Exemple1:testdelanormalitéd’unvecteurd’observations 28 2.1.4 Lesoutilsgraphiques:histogrammeetqqplot . . . . . . 30 2.1.5 letestdeχ2dePearson . . . . . . . . . . . . . . . . . . . 35 2.1.6 Exemple2:testdenormalitéd’observationsregroupées 39 2.1.7 Exemple3:testdefréquencesetdeproportionsavecproc freq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.1.8 Probabilitécritiqueexacte,applicationauχ2dePearson 44 2.1.9 Estimationdelaprobabilitécritiqueexacteparbootstrap- ping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.2 Testd’hypothèsesurlavaleurcentrale . . . . . . . . . . . . . . . 50 2.2.1 Letestdusigne . . . . . . . . . . . . . . . . . . . . . . . . 51 2.2.2 LetestdeWilcoxonoutestdesrangssignés . . . . . . . 52 2.2.3 Exemple1:testsurlavaleurdelamédianed’unesérie . 54 2.2.4 Exemple2:applicationàunéchantillonapparié . . . . . 54 2.2.5 LetestdeMcNemar . . . . . . . . . . . . . . . . . . . . . 57 2.2.6 Exemple3:del’utilitéd’unedoublecorrectiondescopies 59 2.2.7 Letestbinomiald’uneproportion . . . . . . . . . . . . . 60 3 Testsd’égalitédedeuxdistributions 63 3.1 Letestdelamédiane . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.2 LestestsdeMann-WhitneyetdelasommedesrangsdeWilcoxon 64 3.2.1 LetestdeMann-Whitney . . . . . . . . . . . . . . . . . . 64 3.2.2 LetestdeWilcoxon . . . . . . . . . . . . . . . . . . . . . . 66 3.3 LestestsEDF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.3.1 letestdeKolmogorov-Smirnov . . . . . . . . . . . . . . . 68 3.3.2 letestdeCramer-vonMises . . . . . . . . . . . . . . . . . 69 3.3.3 letestdeKuiper . . . . . . . . . . . . . . . . . . . . . . . 69 3 4 TABLEDESMATIÈRES 3.3.4 Exemple1:notesàlasession1desexamensduM1ESA selonlaprovenancedesétudiants . . . . . . . . . . . . . 70 3.3.5 Exemple2:leparadoxedeSimpson-analysestratifiéeet contrôledelacompositiondeséchantillons . . . . . . . . 77 4 Testssurplusdedeuxéchantillons 81 4.1 LetestdeKruskal-Wallisetsesvariantes . . . . . . . . . . . . . 82 4.1.1 LetestdeKruskal-Wallis . . . . . . . . . . . . . . . . . . 82 4.1.2 QuelquesvariantesdutestdeKruskal-Wallis . . . . . . . 83 4.2 TestdeJonckheere-Terpstrapouralternativeordonnée . . . . . 85 5 Testsd’indépendanceoud’homogénéité 89 5.1 Leχ2dePearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.1.1 Testd’homogénéitéd’échantillons . . . . . . . . . . . . . 89 5.1.2 Testd’indépendancedevariables. . . . . . . . . . . . . . 91 5.1.3 Exemple:L’argentfaitlebonheur! . . . . . . . . . . . . . 91 5.2 LecasdestableauxR C. . . . . . . . . . . . . . . . . . . . . . . 95 × 5.3 LetestdeFisherexact . . . . . . . . . . . . . . . . . . . . . . . . 95 5.4 Hypothèsealternativeavectendance:letestdeCochran-Armitage 98 6 Lesmesuresd’association 105 6.1 lecoefficientphi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.2 lecoefficientVdeCramer . . . . . . . . . . . . . . . . . . . . . . 106 6.3 LecoefficientdecorrélationdePearson . . . . . . . . . . . . . . 107 6.4 LecoefficientdecorrélationdeSpearman . . . . . . . . . . . . . 108 6.5 LecoefficientdecorrélationdeKendall . . . . . . . . . . . . . . 109 6.5.1 Illustrations des différences entre Pearson, Spearman et Kendall. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Chapitre 1 Introduction Cecoursapourobjectiflaprésentationdestestsnonparamétriqueslesplus couramment utilisés. Il se situe dans le cadre de l’inférence statistique et des tests d’hypothèse usuels : on cherche à apprécier des caractéristiques d’une populationàpartird’unéchantillonissudecettepopulation. 1.0.1 Rappels S’agissantdesavoirsilesdonnéescontredisentounecontredisentpasune proposition, vous savez que l’on est amené à réaliser un test de signification quinécessitelaformulationd’unehypothèsenulle, H ,etd’unehypothèseal- 0 ternative,H . 1 L’hypothèsenulleportesurlaoulesvaleursd’unouplusieursparamètresde lapopulationoud’unmodèlestatistique.L’hypothèsealternativecorrespond àl’argumentquel’onsouhaiteretenirencasderejetdelapropositiondebase. Vousavezainsirencontrédesexemplescomme: — L’espéranced’unevariableXestégaleà μ versuselleestdifférentede 0 μ ,soit 0 H0:E(X)=μ vs H :E(X),μ 0 1 0 — L’espéranced’unevariableestlamêmeauseindedeuxpopulationsA etBversusl’espéranceauseindeAestinférieureàsavaleurauseinde B H0:μ =μ vs H :μ <μ A B 1 A B — Au sein d’un modèle de régression donné, la variable X n’est pas une explicativepertinente H0:βX =0 vs H1 :βX ,0 Voussavezaussiquelaconclusionesttoujoursformuléesurl’hypothèsenulle, soit on ne rejette pas H , soit on rejette H , et que le non rejet de H ne signi- 0 0 0 fie pas que la proposition qui lui est associée est vraie, mais seulement que l’information contenue dans les données ne permet pas raisonnablement de l’abandonnerauprofitdel’alternative. Vous savez également que "raisonnablement" suppose que l’on ait choisi un 5 6 CHAPITRE1. INTRODUCTION niveau de risque de première espèce c’est à dire une probabilité de rejeter la nullealorsqu’elleestvraie,lechoixlepluscourantétantunevaleur,habituel- lement notée α prise dans le triplet 1%,5%,10% sans autre justification que { } celledefairecommelamajoritéetayantledéfautdenepasfaireintervenirle coûtassociéàunrejetàtortdeH . 0 Ilestdoncpossibledecontrôlerlerisquedepremièreespèceenimposantune valeur pour α. En revanche on ne contrôle alors pas le risque de deuxième espèce,i.e.laprobabilitédenepasrejeterH alorsqu’elleestfausse. 0 Siβestcettedernièreprobabilité,alors1 βestlapuissancedutest,c’està − direlaprobabilitéderejeterunehypothèsenullequiseraitfausse.L’idéalpour réaliser un test d’hypothèse est donc de choisir le test uniformément le plus puissant,i.e.celuiayant,pourtoutα,laplusgrandepuissance. — Exemple:supposezquedansunétablissementbancaire,vousacceptiez d’accorder un prêt dès lors qu’un certain score est supérieur à 3. Pour un client i quelconque il convient donc de tester H : S >= 3 versus 0 i H1:S <3. i le risque de première espèce est de ne pas accorder de crédit à un • clientquel’onauraitdûaccepter,etdoncdeperdreunclientsain, le risque de deuxième espèce est d’accorder un crédit à un client • auquel on aurait dû le refuser, et donc d’accroître le risque de son portefeuilleau-delàduniveaudésiré, lapuissancedutestseraitlaprobabilitédenepasaccorderdecrédit • àunclientauquelonneveuteffectivementpasaccorderdecrédit. Enfin,laprobabilitécritiqueoùp-valueestlaprobabilitéquelastatistiquede testprenneunevaleursupérieureàcelleobtenuesurl’échantillonalorsque H estvraie.Naturellement,pluslap-valueestprochedezéroetmoins 0 l’informationtiréedel’échantillons’accordeaveclapropositiondécriteparH . 0 Larèglededécisionsuivantes’imposealors: sip-value<α,ondoitrejeterH enfaveurdeH 0 1 • sip-value>α,onnerejettepasH 0 • LorsqueladistributiondelastatistiquesousH estconnue,leslogicielsd’écono- 0 métriesontsouventenmesured’évaluersa p-value. Lorsqu’elleestinconnue, des simulations de type bootstrap permettent parfois d’approcher sa valeur. L’avantagedeconnaîtrelaprobabilitécritiqueestderendreobsolètelerecours auxtablesstatistiquesaffichantlesvaleurscritiquesdeladistributionconsidé- réepourcertainesvaleursdeα.Ellepermetenoutredetravailleravecn’importe quelseuilderisquedepremièreespèce. 1.0.2 testsparamétriquesetnonparamétriques Lorsqu’onfaitl’hypothèsequelesobservationsquidécriventlesindividus sonttiréesdedistributionsdépendantd’unnombrefinideparamètres,onpar- lera de tests paramétriques. Plusieurs cours de licence ou de Master 1 vous ont familiarisés avec ces derniers. Par opposition, lorsqu’on n’impose pas de distributionsurcesvariablesonseradanslecadredelastatistiquenonpara- métrique. 7 Certainsavantagesetdésavantagesdesunsetdesautressontalorsimmédia- tementperceptibles: — La validité des tests paramétriques va dépendre du respect des hypo- thèsesdistributionnellesfaitesenamont,parexempled’unehypothèse denormalitédesobservations. — lavaliditédestestsnonparamétriquesnedépendrapasdeladistribution dont sont tirées les observations. Ils seront donc naturellement plus robustesquelesprécédents. — imposantplusdecontraintessurlemodèlestatistique,lestestsparamé- triques doivent dominer les tests non paramétriques lorsque les hypo- thèsesimposéessontvraies.Commeoncontrôledanslesdeuxcaspour lerisquedepremièreespèce,l’avantagedespremiersnepeutvenirque du risque de seconde espèce. En d’autres termes, si les hypothèses de distributionimposéesparlestestsparamétriquessontvraies,ilsdoivent êtrepluspuissantsquelestestsnonparamétriques. Ainsi, si on ne veut pas faire d’hypothèses sur les distributions des observa- tions, ou si la taille des échantillons est trop faible pour que le recours à des théorèmesdeconvergenceasymptotiquejustifieunehypothèsededistribution particulière,onseraamenéàmettreenoeuvredestestsnonparamétriques. Mais il est également possible que la nature des observations contraigne le choixdutest. 1.0.3 Lanaturedesobservations:leséchellesdemesure Lesstatistiques,paramétriquesounonparamétriques,vontêtreconstruites sur des variables que l’on peut regrouper en deux catégories, qualitative et quantitative, elles mêmes pouvant être subdivisées selon l’échelle de mesure desobservations: 1. échellenominale:deuxindividusauxquelsonattribuelamêmevaleur sontsupposéségauxpouruncaractèreétudiédonné.Exempleuneva- riable indicatrice du genre d’une personne a deux modalités valant 0 (ou ’H’ ou ...) pour les hommes et 1 (ou ’F’ ou ...) pour les femmes, ou encore une indicatrice de la nationalité d’individus, de la marque de voitures,etc....Ils’agitsouventd’identifierdescatégoriesmutuellement exclusives,i.e.cesvariablessatisfontunobjectifdeclassification. 2. échelle ordinale : les modalités prises par la variable définissent une relationd’ordresurlapopulationconsidérée.Onnepeutenparticulier pas interpréter les écarts des valeurs prises par la variable en termes d’intensité:unclassementnerenseigneenriensurladistanceséparant lesindividusclassés.L’exempletypeestceluideséchellesdeLikertque l’onrencontrefréquemmentdanslesquestionnaires,ayantdesmodalités de la forme : très satisfait / satisfait / insatisfait / très insatisfait. Ces variablesremplissentunobjectifdehiérarchisation. 3. échelled’intervalle:Enplusdelarelationd’ordreprécédenteondispose d’unemesurerelativeàladistanceséparantdeuxindividus:contraire- mentàlamesureprécédente,onpeutcomparerlesécartsexistantentre desobservations.AinsisiladistanceentreAetBestde4etcelledeBàC estde2alorsonpeutconclurequeAestdeuxfoispluséloignédeBque 8 CHAPITRE1. INTRODUCTION variables échelle autorise tests nominale classification qualitatives nonparamétriques ordinale hiérarchisation d’intervalle interprétationdesécarts paramétriques quantitatives ou derapport interprétationdesratios nonparamétriques Table1.1–typededonnées,mesuresd’échelleetchoixdutest Bl’estdeC.L’originedecesmesures,lezéro,estfixéarbitrairement.Un exempleestdonnéparlamesuredestempératures.Onnepeutpasdans ce cas interpréter en termes d’intensité le rapport existant entre deux observations:silavariationdetempératureentre100et110celsiusestla mêmequecellequ’ilyaentre200 et210,enrevancheilnefaitpasdeux foispluschaudlorsquel’onpassede10à20degréscelsius1. 4. échelle de rapport (ou de ratio ou proportionnelle) : C’est une échelle d’intervallecaractériséeparl’existenced’uneorigine,unvraizéro.Dece faitlerapportdedeuxvariablesdéfinituneintensitémesurable(onpeut parexempleaffirmerquesideuxpersonnesperçoiventrespectivement 2000et2500eurosparmoisalorslasecondereçoit1.25foislesalairede lapremière2). Lanaturedesdonnéespeutcontraindrel’emploidetelouteltest.Lestests paramétriquesexigenteneffetquelesvariablesdetravailsoientmesuréesau moinssuruneéchelled’intervalle.Lestestsnonparamétriquessontlesseulsà pouvoirêtremisenoeuvresurdesvariablesdetypenominalesouordinales. Enpratiqueilestdoncimportantdeconnaîtrel’échelledemesuredesvariables detravail. Enfin, vous savez encore qu’au sein des variables quantitatives il est possible dedistinguercellesàobservationsdiscrètes,commedanslecasdesdénombre- ments,etcellesàobservationscontinues.Naturellementsiuntestparamétrique supposeunedistributioncontinue,ilnepourrapasêtreemployédanslepre- miercas. Danscecours,nousseronsamenésàcomparerdesdistributionsentreelles. Onvadoncrappelerbrièvementcommentsontrepéréeslesprincipalescarac- téristiquesd’unedistribution. 1.0.4 Lescaractéristiquesusuellesd’unedistribution Si on considère que les observations contenues dans un échantillon sont des réalisations d’une même variable aléatoire, celle-ci peut être définie par 1. Pourvouspersuaderqu’ils’ils’agitbiend’uneéchelled’intervalles,convertissonstousles chiffres de cet exemple en degrés Fahreinhet : 100C et 110C deviennent respectivement 500F et 51.80F,200et210Céquivalantà680Fet69.80F.L’accroissementestdanslesdeuxcasuneconstante, 10Cou1.80F. 2. Pourillustration,lesmesuresdestempératuresconsidéréesaupointprécédentnecorres- pondentpasàuneéchellederatiopuisque100Cet500Freprésententlemêmeétatdelatempé- rature,demêmeque200Cet680F,maislerapportentrelesmesuresdecesdeuxétatsn’apasde significationentermedeproportionalitécarégalà20/10=2sionlesmesureendegrésCelsius,et égalà68/50=1.36sionutiliselesdegrésFahrenheit. 9 sa fonction de répartition, F. Naturellement cette fonction est la plupart du temps inconnue, mais on peut en construire une estimation Fˆ. Par ailleurs, on peut vouloir préciser plusieurs éléments tels que la tendance centrale, la dispersion,lasymétrieoul’asymétrieéventuelle,lecomportementdel’aléatoire auxextrémitésdesonsupport. 1. Lafonctionderépartitionempirique On considère un ensemble de n réalisations x ,x ,...,x de variables 1 2 n { } aléatoires réelles i.i.d. x˜ ,x˜ ,...,x˜ , ayant la fonction de répartition F 1 2 n { } telleque x R,F(x) = Pr[x x],i = 1,2,...n.L’estimateurnaturelde i ∀ ∈ ≤ Festlafonctionenescalierdéfiniepourunevaleurdonnéed’unréel x par: n 1 Fˆ(x)= I(x x) (1.1) i n ≤ i=1 X oùI(x x)estlafonctionindicatricedéfiniepar: i ≤ 1 si x x I(xi ≤x)= 0 sinoin≤ (1.2) ( Illustration:soitles10réalisationssuivantes: 8,2,6,5,3,8,10,7,1,12 . • PourconstruireFˆ àlamain,leplussimplees{tévidemmentd’ordon-} nerlesvaleurscommedanslatable1.2. x 0 1 2 3 5 6 7 8 10 12 13 Fˆ(x) 0/10 1/10 2/10 3/10 4/10 5/10 6/10 8/10 9/10 10/10 10/10 Table1.2–fonctionderépartitionempirique Fˆ(x) 1 0.8 0.6 0.4 0.2 0 x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Figure1.1–graphed’unefonctionderépartitionempirique PropriétésdeFˆ. • Pourunevaleurxdonnée,I(x x)est,pourtouti,unevariablede i ≤ Bernoullitelleque Pr[I(x x)=1]=Pr[x x]=F(x)] (1.3) i i ≤ ≤ etdonc,E[I(x x]=F(x):cetteBernoulliestunestimateursansbiais i deF(x).Encon≤séquenceFˆ estégalementunestimateursansbiaisde F: n 1 E[Fˆ]=E I(x x) =F(x) (1.4) i n ≤   i=1  X  10 CHAPITRE1. INTRODUCTION Parailleurs, V(I(x x)=E[ I(x x) 2] E2[I(x x)] (1.5) i i i ≤ { ≤ } − ≤ =02[1 F(x)]+12F(x) F2(x) (1.6) − − =F(x)[1 F(x)], et (1.7) − n 1 V[Fˆ]=V I(x x) (1.8) i n ≤   i=1 = 1F(x)X[1 F(x)],  (1.9) n − la dernière égalité utilisant l’hypothèse d’indépendance des n aléa- toiresdeBernoulli.Onpeutremarquerqu’asymptotiquement, V[Fˆ(x)] 0, (1.10) n→ →∞ etdonc MSE[Fˆ(x)]=V[Fˆ(x)]+biais[Fˆ(x)]2 =V[Fˆ(x)] (1.11) d’où lim MSE[Fˆ(x)]=0 (1.12) n →∞ Asymptotiquement,l’erreurquadratiquemoyennedeFˆ estnulle,ce quiimpliquelaconvergenceenprobabilitédecetestimateur: (cid:15)>0, Pr Fˆ(x) F(x) >(cid:15) 0 (1.13) ∀ − n→ →∞ h(cid:12) (cid:12) i cequel’onnoteplim(Fˆ)=F.(cid:12)(cid:12) (cid:12)(cid:12) ObtentiondugraphedeFˆ. • Auseindelaproc univariate,onpeututiliserlacommandecdfplot. Par défaut, en l’absence de commande de la forme Var liste de variables,l’appeldecdfplot;construitungraphiquepourtoutes les variables numériques de la table de travail. Lorsqu’une com- mande Var est utilisée, les variables listées dans cdfplot doivent être présentes dans la commande Var=. Ainsi les appels suivants sontvalides: procunivariate...; cdfplot; et procunivariate...; varv1v2v3; cdfplotv1v3; EnsurimpositiondeFˆ,uneoptiondecdfplotpermetdereprésenter lafonctionderépartitionthéoriquechoisieparmionzedisponibles, distributionsdontlesparamètressontsoitconnusapriorisoit,pour

See more

The list of books you might like