Kaj je statistično vrednotenje. Analiza podobnosti porazdelitev. Točkovna ocena parametrov porazdelitve

Naj se preuči kvantitativna značilnost splošne populacije. Predpostavimo, da je bilo iz teoretičnih premislekov mogoče ugotoviti, kakšno distribucijo ima značilnost. Težava nastane pri oceni parametrov, ki določajo to porazdelitev. Če je na primer vnaprej znano, da je preučevana značilnost porazdeljena v splošno populacijo po običajnem zakonu, je treba oceniti matematično pričakovanje in standardni odklon, saj ta dva parametra v celoti določata normalno porazdelitev. Če obstaja razlog za domnevo, da ima značilnost Poissonovo porazdelitev, je treba oceniti parameter, po katerem je ta porazdelitev določena. Običajno obstajajo le vzorčni podatki, pridobljeni kot rezultat opazovanj: ,, ...,. Ocenjeni parameter je izražen s temi podatki. Ob upoštevanju ,, ... kot vrednosti neodvisnih naključnih spremenljivk ,, ... lahko rečemo, da iskanje statistične ocene neznanega parametra teoretične porazdelitve pomeni iskanje funkcije opazovanih naključnih spremenljivk, ki daje približno vrednost ocenjenega parametra.

Torej, statistično vrednotenje neznani parameter teoretične porazdelitve se imenuje funkcija opazovanih naključnih spremenljivk. Pokliče se statistična ocena neznanega parametra splošne populacije za eno število točka... Upoštevane so naslednje točkovne ocene: pristransko in nepristransko, učinkovito in dosledno.

Da bi statistične ocene dale dobre približke ocenjenih parametrov, morajo izpolnjevati nekatere zahteve. Navedimo te zahteve. Naj bo statistična ocena neznanega parametra teoretične porazdelitve. Predpostavimo, da je bila najdena ocena za prostornino vzorca. Ponovimo poskus, to pomeni, da iz splošne populacije izvlečemo še en enako velik vzorec in po njegovih podatkih najdemo oceno itd. Dobimo številke ,, ..., ki se bodo med seboj razlikovale. Tako lahko oceno obravnavamo kot naključno spremenljivko, številke ,, ..., - pa kot njene možne vrednosti.

Če ocena daje približno vrednost s presežkom, potem je število, ugotovljeno iz vzorčnih podatkov ( ) bo večja od prave vrednosti. Posledično bo tudi matematično pričakovanje (povprečna vrednost) naključne spremenljivke večje od, tj. Če daje približno vrednost s pomanjkljivostjo, potem.

Tako bi uporaba statistične ocene, katere matematično pričakovanje ni enako ocenjenemu parametru, povzročila sistematične napake. Zato je treba zahtevati, da je matematično pričakovanje ocene enako ocenjenemu parametru. Skladnost odpravlja sistematične napake.

Nepristranski se imenuje statistična ocena, katere matematično pričakovanje je enako ocenjenemu parametru, tj.

Premeščen se imenuje statistična ocena, katere matematično pričakovanje ni enako ocenjenemu parametru.

Vendar je napačno domnevati, da nepristranska ocena vedno daje dober približek ocenjenega parametra. Dejansko so možne vrednosti lahko močno razpršene okoli njihove srednje vrednosti, tj. Varianca količine je lahko pomembna. V tem primeru se lahko izkaže, da je ocena, ugotovljena na primer iz podatkov enega vzorca, zelo oddaljena od svoje srednje vrednosti in s tem od samega ocenjenega parametra. Če bi to upoštevali kot približno vrednost, bi naredili veliko napako. Če zahtevamo, da je odstopanje količine majhno, bo možnost velike napake izključena. Zato se statističnemu vrednotenju nalagajo zahteve glede učinkovitosti.

Učinkovito je statistična ocena, ki ima (za določeno velikost vzorca) najmanjšo možno varianco. Pri obravnavi vzorcev velike velikosti se zahteva po doslednosti statističnih ocen.

Premožni se imenuje statistična ocena, ki se v verjetnosti nagiba k ocenjenemu parametru. Če je na primer varianca nepristranske ocene enaka nič pri, je tudi taka ocena skladna.

Razmislite o vprašanju, katere značilnosti vzorca so najboljše glede na nepristranskost, učinkovitost in doslednost za oceno splošne povprečja in variance.

Naj se preuči diskretna splošna populacija glede na količinsko značilnost. Splošno srednješolsko imenovano aritmetična sredina vrednosti atributa splošne populacije. Lahko se izračuna s pomočjo formul oz , kjer so vrednosti značilnosti splošne populacije prostornine, ustrezne frekvence, in.

Iz neodvisnih opazovanj kvantitativne lastnosti naj iz splošne populacije vzorec prostornine z vrednostmi lastnosti . Selektivno povprečje imenovano aritmetična sredina vzorca. Lahko se izračuna s pomočjo formul oz , kjer so vrednosti značilnosti v vzorčni populaciji prostornine, ustrezne frekvence in.

Če je splošno povprečje neznano in ga je treba oceniti glede na vzorčne podatke, potem se vzorec povprečja vzame kot ocena splošnega povprečja, kar je nepristranska in dosledna ocena. Iz tega sledi, da če bodo za več vzorcev z dovolj veliko velikostjo iz iste splošne populacije najdene vzorčne vrednosti, bodo med seboj približno enake. To je lastnina trajnost vzorčnih sredstev.

Upoštevajte, da če so razlike med obema populacijama enake, potem bližina vzorčnih sredstev do splošne populacije ni odvisna od razmerja velikosti vzorca do celotne velikosti populacije. Odvisno od velikosti vzorca: večja kot je velikost vzorca, manj se povprečje vzorca razlikuje od splošnega.

Da bi označili razpršenost vrednosti kvantitativne značilnosti splošne populacije okoli njene srednje vrednosti, je uvedena zbirna značilnost - splošna varianca. Splošna varianca je aritmetična sredina kvadratov odstopanj vrednosti atributa splošne populacije od njihove srednje vrednosti, ki se izračuna po formulah: , ali .

Za karakterizacijo razpršenosti opazovanih vrednosti količinske značilnosti vzorca okoli njegove srednje vrednosti je uvedena zbirna značilnost - selektivna varianca. Selektivna varianca imenovana aritmetična sredina kvadratov odstopanj opaženih vrednosti atributa od njihove srednje vrednosti, ki se izračuna po formulah: , ali .

Poleg variance je za karakterizacijo razpršenosti vrednosti atributa splošne (vzorčne) populacije okoli njegove srednje vrednosti uporabljena tudi zbirna značilnost - standardni odklon. Splošno srednje kvadratno odstopanje imenovan kvadratni koren splošne variance: Selektivni standardni odklon imenovan kvadratni koren variance vzorca:

Naj bo vzorec prostornine izvzet iz splošne populacije kot rezultat neodvisnih opazovanj kvantitativne značilnosti. Na podlagi vzorčnih podatkov je treba oceniti neznano splošno varianco. Če vzamemo varianco vzorca kot oceno splošne variance, potem bo ta ocena povzročila sistematične napake in dala podcenjeno vrednost splošne variance. To je razloženo z dejstvom, da je varianca vzorca pristranska ocena; z drugimi besedami, matematično pričakovanje variance vzorca ni enako ocenjeni splošni varianti, je pa .

Enostavno je popraviti varianco vzorca, tako da je njegovo matematično pričakovanje enako splošni varianti. Dovolj je, da se to pomnoži z ulomkom. Kot rezultat dobimo popravljeno varianco, ki jo običajno označimo z. Popravljena varianca bo nepristranska ocena splošne variance: .

2. Ocene intervala.

Statistična teorija ocenjevanja parametrov se poleg ocene točk ukvarja tudi z vprašanji intervalne ocene. Problem ocene intervala lahko oblikujemo takole: glede na vzorčne podatke zgradimo številčni interval, glede na katerega lahko z vnaprej izbrano verjetnostjo rečemo, da se ocenjeni parameter nahaja znotraj tega intervala. Intervalna ocena je še posebej potrebna za majhno število opazovanj, kadar je točkovna ocena večinoma naključna, zato ni preveč zanesljiva.

Interval zaupanja kajti parameter se imenuje interval, glede na katerega je mogoče z vnaprej izbrano verjetnostjo, ki je enaka enoti, trditi, da vsebuje neznano vrednost parametra, tj. ... Manjše je število za izbrano verjetnost, natančnejša je ocena neznanega parametra. Nasprotno, če je to število veliko, potem ocena, narejena s tem intervalom, ni zelo primerna za prakso. Ker so konci intervala zaupanja odvisni od elementov vzorca, se vrednosti lahko razlikujejo od vzorca do vzorca. Verjetnost se običajno imenuje raven zaupanja (zanesljivosti). Običajno je zanesljivost ocene določena vnaprej, za vrednost pa se vzame številka blizu ene. Izbira stopnje zaupanja ni matematični problem, ampak je določen s posebnim problemom, ki se reši. Najpogosteje je zanesljivost enaka; ; ...

Dajmo brez izpeljave interval zaupanja za splošno povprečje z znano vrednostjo standardnega odklona, \u200b\u200bpod pogojem, da je naključna spremenljivka (kvantitativna značilnost) običajno porazdeljena:

kjer je vnaprej določeno število blizu enote, vrednosti funkcije pa so podane v Dodatku 2.

Pomen tega razmerja je naslednji: z zanesljivostjo lahko trdimo, da interval zaupanja ( ) zajema neznani parameter, natančnost ocene je. Število se določi iz enakosti, oz. V skladu s tabelo (priloga 2) je najden argument, ki ustreza vrednosti funkcije Laplace, enaki.

Primer 1... Naključna spremenljivka ima normalno porazdelitev z znanim standardnim odklonom. Poiščite intervale zaupanja za oceno neznanega splošnega povprečja na podlagi vzorca, če sta navedena velikost vzorca in zanesljivost ocene.

Sklep. Našli ga bomo. Iz relacije dobimo to. Glede na tabelo (Dodatek 2) najdemo. Poiščite natančnost ocene ... Intervali zaupanja bodo naslednji: ... Na primer, če, potem ima interval zaupanja naslednje meje zaupanja :; ... Tako vrednosti neznanega parametra, skladne z vzorčnimi podatki, zadovoljujejo neenakost .

Interval zaupanja za splošno povprečje normalne porazdelitve lastnosti z neznano vrednostjo standardnega odklona je podan z izrazom .

Iz tega sledi, da lahko z zanesljivostjo trdimo, da je interval zaupanja zajema neznan parameter.

Obstajajo že pripravljene tabele (Dodatek 4), s pomočjo katerih za dano in najdemo verjetnost in obratno za dano in jih lahko najdemo.

2. primer... Kvantitativna značilnost splošne populacije je običajno porazdeljena. Za volumen vzorca sta bila ugotovljena srednja vrednost vzorca in popravljeni standardni odklon. Ocenite neznano splošno povprečje z uporabo intervala zaupanja z zanesljivostjo.

Sklep. Našli ga bomo. Uporabite tabelo (Dodatek 4) za in poiščite :. Poiščimo meje zaupanja:

Torej, z zanesljivostjo je neznani parameter zaprt v intervalu zaupanja.

3. Pojem statistične hipoteze. Splošna formulacija problema preizkušanja hipotez.

Preizkušanje statističnih hipotez je tesno povezano s teorijo ocene parametrov. V naravoslovju, tehnologiji in ekonomiji se pogosto za razjasnitev določenega naključnega dejstva zatekajo k oblikovanju hipotez, ki jih je mogoče statistično preveriti, to je na podlagi rezultatov opazovanj v naključnem vzorcu. Spodaj statistične hipoteze implicirajo se take hipoteze, ki se nanašajo bodisi na tip bodisi na posamezne parametre porazdelitve naključne spremenljivke. Tako je na primer statistična hipoteza, da ima porazdelitev produktivnosti dela delavcev, ki opravljajo enako delo v enakih pogojih, običajen zakon o porazdelitvi. Hipoteza, da se povprečne velikosti delov, izdelanih na istem tipu vzporednih delovnih strojev, med seboj ne razlikujejo, bo tudi statistična.

Imenuje se statistična hipoteza navaden če enolično določa porazdelitev naključne spremenljivke, se sicer imenuje hipoteza zapleteno.Na primer, preprosta hipoteza je predpostavka, da se naključna spremenljivka porazdeli po običajnem zakonu s pričakovanjem nič in varianco ena. Če se domneva, da ima naključna spremenljivka normalno porazdelitev z varianco, ki je enaka enoti, in je matematično pričakovanje število iz segmenta, potem je to težka hipoteza. Drug primer zapletene hipoteze je predpostavka, da zvezna naključna spremenljivka z verjetnostjo zavzame vrednost iz intervala, v tem primeru je porazdelitev naključne spremenljivke lahko kateri koli iz razreda neprekinjenih porazdelitev.

Porazdelitev količine je pogosto znana, zato je treba na vzorcu opazovanja preveriti predpostavke o vrednostih parametrov te porazdelitve. Takšne hipoteze se imenujejo parametrično.

Imenuje se hipoteza, ki jo je treba preizkusiti ničelna hipoteza in je označena z. Skupaj s hipotezo je obravnavana ena od alternativnih (konkurenčnih) hipotez. Na primer, če hipotezo preizkusimo o enakovrednosti parametra določeni dani vrednosti, tj .:, potem lahko eno od naslednjih hipotez obravnavamo kot alternativno hipotezo ::; :; :; :, kjer je dana vrednost ,. Izbira alternativne hipoteze je odvisna od posebne formulacije problema.

Pravilo, po katerem se sprejme odločitev o sprejetju ali zavrnitvi hipoteze, se imenuje merilo ... Ker se odločitev sprejme na podlagi vzorca opazovanja naključne spremenljivke, je treba izbrati ustrezno statistiko, v tem primeru imenovano kriterijska statistika. Pri preizkušanju preproste parametrične hipoteze: kot kriterijska statistika je izbrana ista statistika kot za oceno parametrov.

Statistično preverjanje hipotez temelji na načelu, da se verjetni dogodki štejejo za nemogoče, dogodki, ki so zelo verjetni, pa za zanesljive. To načelo se lahko izvaja na naslednji način. Pred analizo vzorca je določena določena nizka verjetnost, imenovana raven pomembnosti... Naj bo niz vrednosti statističnih podatkov in mora biti taka podskupina, da je, če je hipoteza resnična, verjetnost, da je statistika merila enaka, tj. .

Označimo z vzorčno vrednostjo statistike, izračunano iz vzorca opazovanj. Kriterij je oblikovan na naslednji način: zavrni hipotezo if; sprejeti hipotezo, če. Klicano je merilo, ki temelji na uporabi vnaprej določene stopnje pomembnosti merilo pomembnosti... Pokliče se nabor vseh vrednosti statistik meril, za katere se sprejme odločitev o zavrnitvi hipoteze kritično območje; območje se imenuje območje sprejemanja hipoteze.

Stopnja pomembnosti določa velikost kritičnega območja. Položaj kritičnega območja na nizu statističnih vrednosti je odvisen od formulacije alternativne hipoteze. Na primer, če hipotezo preizkusimo :, alternativna hipoteza pa je formulirana kot: (), se kritično območje nahaja na desnem (levem) "repu" porazdelitve statistike, to je v obliki neenakosti: (), kjer in so tiste vrednosti statistike, ki sprejeti z verjetnostjo, pod pogojem, da je hipoteza resnična. V tem primeru se zahteva merilo enostransko, oziroma desničar in levičar. Če je alternativna hipoteza oblikovana kot :, potem je kritično območje na obeh "repih" porazdelitve, tj. Določeno je z nizom neenakosti in; v tem primeru se zahteva merilo dvostranski.

Na sl. 30 prikazuje lokacijo kritičnega območja za različne alternativne hipoteze. Tu je gostota porazdelitve merilne statistike, če je hipoteza resnična, ali je območje sprejetja hipoteze, .

Tako lahko testiranje parametrične statistične hipoteze s testom pomembnosti razdelimo na naslednje korake:

1) oblikujejo hipoteze, ki jih je mogoče preizkusiti () in alternativno ();

2) določite raven pomembnosti; kot v neskladju z opažanji; če potem hipotezo sprejmemo, torej predpostavimo, da hipoteza ni v nasprotju z rezultati opazovanj.

Običajno se pri izvajanju točk 4 - 7 uporabljajo statistike, katerih kvantile so razvrščene v tabelo: statistika z normalno porazdelitvijo, Študentska statistika, Fisherjeva statistika.

3. primer... Glede na podatke o potnih listih avtomobilskega motorja poraba goriva na 100 km kilometrina je 10 l... Zaradi preoblikovanja motorja naj bi se poraba goriva zmanjšala. Preskusi se izvajajo za preverjanje 25 naključno izbranih avtomobilov z nadgrajenim motorjem z vzorčno povprečno porabo goriva za 100 km kilometrina glede na rezultate preskusov je bila 9,3 l... Predpostavimo, da vzorec porabe goriva dobimo iz normalno porazdeljene populacije s povprečjem in varianco. Pod pogojem, da je hipoteza o kritični regiji za prvotne statistike resnična, tj. Enaka ravni pomembnosti. Poiščite verjetnosti napak prve in druge vrste za merilo s tako kritičnim območjem. ima normalno porazdelitev z enakim matematičnim pričakovanjem in enako varianco. Verjetnost napake druge vrste najdemo po formuli (11.2):

Zato je v skladu s sprejetim merilom 13,6% avtomobilov s porabo goriva 9 l na 100 km prevoženih kilometrov uvrščamo med vozila s porabo goriva 10 l.

4. Teoretične in empirične frekvence. Merila za soglasje.

Empirične frekvence - frekvence, pridobljene kot rezultat izkušenj (opazovanja). Teoretične frekvence izračunamo po formulah. Za običajni zakon o distribuciji jih lahko najdemo na naslednji način:

, (11.3)

Načrt predavanja:

    Ocenjevalni koncept

    Lastnosti statističnih ocen

    Metode za iskanje točkovnih ocen

    Intervalna ocena parametrov

    Interval zaupanja za matematično pričakovanje z znano varianco normalno porazdeljene splošne populacije.

    Chi-kvadrat porazdelitev in Studentova t porazdelitev.

    Interval zaupanja za matematično pričakovanje naključne spremenljivke, ki ima normalno porazdelitev z neznano varianco.

    Interval zaupanja za standardni odklon normalne porazdelitve.

Seznam referenc:

    Wentzel, E.S. Teorija verjetnosti [Besedilo] / E.S. Wentzel. - M.: Višja šola, 2006. - 575 str.

    Gmurman, V.E. Teorija verjetnosti in matematična statistika [Besedilo] / V.E. Gmurman. - M.: Višja šola, 2007. - 480 str.

    Kremer, N.Sh. Teorija verjetnosti in matematična statistika [Besedilo] / N.Sh. Kremer - M: UNITI, 2002. - 543 str.

A.1. Ocenjevalni koncept

Porazdelitve, kot so binomske, eksponentne, normalne, so družine porazdelitev, ki so odvisne od enega ali več parametrov. Na primer, eksponentna porazdelitev z gostoto verjetnosti je odvisna od enega parametra λ, normalne porazdelitve
- iz dveh parametrov m in σ. Iz pogojev obravnavanega problema je praviloma razvidno, o kateri družini distribucij govorimo. Vendar posebne vrednosti parametrov te porazdelitve, ki so vključene v izraze značilnosti porazdelitve, ki nas zanimajo, ostajajo neznane. Zato je treba vedeti vsaj približno vrednost teh količin.

Naj bo zakon porazdelitve splošne populacije določen do vrednosti parametrov, vključenih v njegovo porazdelitev
, od katerih so nekateri morda znani. Eden od problemov matematične statistike je najti ocene neznanih parametrov na vzorcu opazovanja
prebivalstva. Ocenjevanje neznanih parametrov je sestavljeno iz konstrukcije funkcije
iz naključnega vzorca, tako da je vrednost te funkcije približno enaka ocenjenemu neznanemu parametru θ ... Funkcija poklical statistika parameter θ .

Statistični oceno (v nadaljevanju preprosto oceno) parameter θ teoretična porazdelitev se imenuje njena približna vrednost, odvisno od podatkov o izbiri.

Ocenjevanje je naključna spremenljivka, ker je funkcija neodvisnih naključnih spremenljivk
; če naredite drug vzorec, bo funkcija na splošno dobila drugačno vrednost.

Obstajata dve vrsti ocen - točkovna in intervalna.

Točka je rezultat, ki ga določa ena številka. Z majhnim številom opazovanj lahko te ocene povzročijo velike napake. Da bi se jim izognili, se uporabljajo intervalne ocene.

Interval pokliče se ocena, ki je določena z dvema številkama - koncema intervala, v katerem je ocenjena vrednost zaprta z dano verjetnostjo θ .

P. 2 Lastnosti statističnih ocen

Količina
poklical natančnost ocene... Manj
, bolje je, natančneje se določi neznani parameter.

Za oceno katerega koli parametra je naloženih več zahtev, ki jih mora izpolnjevati, da je "blizu" resnični vrednosti parametra, tj. biti v nekem smislu "dobra" ocena. Kakovost ocene se določi s preverjanjem, ali ima lastnosti nepristranskost, učinkovitost in doslednost.

Ocenjevanje parameter θ poklical nepristranski (brez sistematičnih napak), če matematično pričakovanje ocene sovpada z resnično vrednostjo θ :

. (1)

Če enakost (1) ne velja, potem je ocena poklical razseljeni (s sistematičnimi napakami). Ta pristranskost je lahko posledica napak pri merjenju, napak pri štetju ali nenaključnega vzorčenja. Sistematične napake vodijo do precenjevanja ali podcenjevanja.

Za nekatere probleme matematične statistike je lahko več nepristranskih ocen. Običajno je prednostna tista z najmanjšim razprševanjem (disperzijo).

Ocenjevanje poklical učinkovitoče ima najmanjšo varianco med vsemi možnimi nepristranskimi ocenami parametra θ .

Naj bo D() Je najmanjša varianca in
- varianca katere koli druge nepristranske ocene parameter θ ... Potem učinkovitost ocenjevanja enako

. (2)

Jasno je, da
... Bližje
do 1, učinkovitejša je ocena ... Če
ob
, potem se pokliče ocena asimptotično učinkovit.

Komentiraj: Če je rezultat premaknjen, potem majhnost njegove variance ne pomeni, da je njegova napaka majhna. Na primer kot ocena parametra θ neko številko , dobimo oceno tudi z ničelno varianco. Vendar je v tem primeru napaka (napaka)
lahko tako velik, kot želite.

Ocenjevanje poklical premožniče s povečanjem velikosti vzorca (
) ocena se verjetnost približa natančni vrednosti parametra θ , tj. če sploh

. (3)

Doslednost ocenjevanja parameter θ pomeni, da z rastjo n ocena ocene velikosti vzorca se izboljšuje.

Izrek1. Vzorčna sredina je nepristranska in dosledna ocena pričakovane vrednosti.

Izrek 2. Popravljena varianca vzorca je nepristranska in dosledna ocena variance.

Izrek 3. Empirična funkcija porazdelitve vzorca je nepristranska in dosledna ocena funkcije porazdelitve naključne spremenljivke.

Naj se na primer preuči kvantitativna značilnost splošne populacije. Predpostavimo, da je bilo iz teoretičnih premislekov mogoče ugotoviti, kakšno distribucijo ima značilnost. Seveda nastane težava pri oceni parametrov, ki določajo to porazdelitev. Če je na primer vnaprej znano, da se preučevana lastnost običajno porazdeli med splošno populacijo, je treba oceniti (približno najti) matematično pričakovanje a in standardni odklon s, saj ta dva parametra v celoti določata normalno porazdelitev.

Običajno ima raziskovalec le vzorčne podatke, na primer vrednosti kvantitativne lastnosti x 1, x 2, ..., x n, pridobljene kot rezultat n opazovanj. Skozi te podatke je izražen ocenjeni parameter.

Naj bo q * statistična ocena neznanega parametra q teoretične porazdelitve. Razlikovati nepristranskiin razseljeni ocene.

Nepristranskise imenuje statistična ocena q *, katere matematično pričakovanje je enako ocenjeni vrednosti q za katero koli velikost vzorca, to je

V nasprotnem primeru, če je М (q *) ¹ q, se pokliče ocena razseljeni.

Zahteva po nepristranskosti pomeni, da ne sme biti sistematičnega odstopanja v isti smeri opazovanih vrednosti od q.

Potrebna je tudi statistična ocena učinkovitost, kar pomeni (za določeno velikost vzorca) najmanjšo možno varianco, v primeru velike velikosti vzorca pa zahtevo doslednost, to je praktično sovpadje opazovanih vrednosti naključne spremenljivke z ocenjenim parametrom.

Če je statistični material predstavljen v obliki variacijske serije, se njegova nadaljnja analiza praviloma izvede s pomočjo nekaterih konstantnih vrednosti, ki v celoti odražajo zakonitosti, povezane s splošno preučevano populacijo.

Te konstante vključujejo povprečne vrednosti, med katerimi je najpomembnejša aritmetična sredina - je po pomenu, lastnostih in načinu pridobivanja preprostejši od drugih.

Ker se pri preučevanju splošne populacije izvaja vzorec, se imenuje konstantna vrednost, ki označuje vzorec vzorec povprečje in je označena z.

Lahko se dokaže, da obstaja nepristranska ocenaaritmetična sredina atributa splošne populacije, tj

Naj bo nekaj sklopov razdeljeno na dele - skupini, ni nujno enako po obsegu. Nato se pokliče aritmetična srednja porazdelitev članov skupine povprečja skupine, aritmetična sredina porazdelitve za isti atribut celotne populacije pa je splošno povprečje... Pokličejo se skupine ločenče vsak član populacije pripada samo eni skupini.

Skupna srednja vrednost je enaka aritmetični sredini povprečja skupin vseh skupin, ki se ne prekrivajo.

Primer. Izračunajte povprečne plače delavcev v podjetju v skladu s tabelo

Sklep. Po definiciji je splošno povprečje

. (*)

n 1 \u003d 40, n 2 \u003d 50, n 3 \u003d 60

Povprečna plača delavcev v delavnici št. 1. Da bi jo našli, smo sestavili aritmetično povprečno plačo za celotno delavnico: 75, 85, 95 in 105 (cu) Zaradi udobja lahko te vrednosti zmanjšamo za petkrat (to je njihov največji skupni delitelj): 15, 17, 19, 21. Ostalo je razvidno iz formule.

Po opravljenih podobnih operacijah ugotovimo ,.

Z nadomestitvijo dobljenih vrednosti v (*) dobimo

Povprečja so konstante, ki na določen način označujejo porazdelitve. Nekatere distribucije se presojajo samo po sredstvih. Na primer, za primerjavo ravni plač v različnih panogah zadostuje primerjava povprečnih plač v njih. Vendar pa po povprečjih ni mogoče presoditi razlik med plačami najvišje in najnižje plačanih delavcev ali kakšnih odstopanj od povprečne plače.

V statistiki je najbolj zanimivo širjenje vrednosti atributov okoli njihove aritmetične sredine. V praksi in v teoretičnih študijah je za razpršenost lastnosti pogosteje varianca in standardni odklon.

Selektivna varianca D In se imenuje aritmetična sredina kvadratov odstopanja opazovanih vrednosti atributa od njihove srednje vrednosti.

Če so vse vrednosti x 1, x 2, ... x n velikosti vzorca n različne, potem

. (3)

Če imajo vrednosti atributa x 1, x 2, ... x k frekvence n 1, n 2, ... n k oziroma n 1 + n 2 + ... + n k \u003d n, potem

. (4)

Če je treba indikator razpršenosti izraziti v enakih enotah kot vrednosti atributov, lahko uporabite povzetek - standardni odklon

Za izračun variance se običajno uporablja formula

Če je populacija razdeljena na skupine, ki se ne prekrivajo, se lahko za njihovo opredelitev uvedejo koncepti skupine, znotraj skupine, medskupine in splošne variance.

Skupina varianca je varianca porazdelitve članov j-te skupine glede na njihovo povprečje - povprečje skupine, tj.

kjer je n i frekvenca vrednosti x i, je prostornina skupine j.

Intragroup varianca je aritmetična sredina skupinskih varianc

kjer je N j (j \u003d 1, 2,…, m) - prostornine ločenih skupin.

Medskupina varianca je aritmetična sredina kvadratov odklonov skupinskih sredin vseh disjuntnih skupin od skupne srednje vrednosti, to je

.

General varianca je varianca vrednosti atributa celotne populacije glede na skupno povprečje

,

kjer je n i frekvenca vrednosti x i; - splošno povprečje; n je obseg celotne populacije.

Dokaže se lahko, da je celotna varianca D enaka vsoti, tj.

Primer. Poiščite skupno varianco populacije, sestavljene iz naslednjih dveh skupin

Prva skupina Druga skupina
x i n i x i n i

Sklep. Poiščite skupinska sredstva

Poiščite skupinske variance

Poiščite splošno povprečje

Skupna iskana varianca

Zgoraj obravnavane ocene se običajno imenujejo točkasaj so te ocene določene eno številko... Kdaj majhen volumen vzorec uporablja intervalno oceno, določeno z dve številkiimenovani konci intervala.

Ocene intervalov nam omogočajo, da ugotovimo natančnost in zanesljivost ocene. Pojasnimo pomen teh pojmov. Naj statistična značilnost q *, ugotovljena iz vzorčnih podatkov, služi kot ocena neznanega parametra q. Jasno je, da q * bolj natančno kot bo določen parameter q, manjša je absolutna vrednost. Z drugimi besedami, če je d\u003e 0 in, potem ko je manjši d, je ocena natančnejša.

Tako je označeno število d\u003e 0 natančnost ocene. Toda po drugi strani statistične metode ne omogočajo kategorične trditve, da ocena q * izpolnjuje neenakost. Tu lahko govorite samo o tem verjetnosti g, s katero je ta neenakost izpolnjena. Ta verjetnost g se imenuje zanesljivost (raven zaupanja) ocene q s q *.

Iz povedanega torej izhaja, da

Razmerje (*) je treba razumeti tako: verjetnost, da interval (q * - d, q * + d) vsebuje (pokriva) neznani parameter q, je enaka g. Interval (q * - d, q * + d), ki zajema neznani parameter z dano zanesljivostjo g, se imenuje interval zaupanja.

Primer.Naključna spremenljivka X ima normalno porazdelitev z znanim standardnim odklonom s \u003d 3. Poiščite intervale zaupanja za oceno neznanega matematičnega pričakovanja a od vrednosti vzorca, če je velikost vzorca n \u003d 36 in je zanesljivost ocene nastavljena na g \u003d 0,95.

Sklep. Upoštevajte, da če je naključna spremenljivka X običajno porazdeljena, je tudi vzorčna sredina, ugotovljena iz neodvisnih opazovanj, običajno porazdeljena in parametri porazdelitve so naslednji :, (glejte stran 54).

Zahtevamo, da razmerje

.

Z uporabo formule (**) (glej stran 43), ki nadomešča X z in s, dobimo

vzorec porazdelitve statistične ocene

Ocena je približek vrednosti želene vrednosti, dobljene na podlagi rezultatov opazovanja vzorca. Ocene so naključne spremenljivke. Omogočajo oblikovanje utemeljene presoje o neznanih parametrih splošne populacije. Primer ocene splošnega povprečja je vzorčna sredina splošne variance - varianca vzorca itd.

Da bi ocenili, kako "dobro" ocena ustreza ustrezni splošni značilnosti, so bila razvita 4 merila: doslednost, nepristranskost, učinkovitost in zadostnost. Ta pristop temelji na dejstvu, da kakovosti ocene ne določajo njene posamezne vrednosti, temveč značilnosti njene porazdelitve kot naključne spremenljivke.

Na podlagi določb teorije verjetnosti je mogoče dokazati, da je od značilnosti vzorca, kot so aritmetična sredina, način in mediana, le aritmetična sredina dosledna, nepristranska, učinkovita in zadostna ocena splošne sredine. To je tisto, kar med drugimi značilnostmi vzorca določa prednost aritmetični sredini.

Nepristranskost ocena se kaže v tem, da je njeno matematično pričakovanje za katero koli velikost vzorca enako vrednosti ocenjenega parametra v splošni populaciji. Če ta zahteva ni izpolnjena, je rezultat razseljeni.

Pogoj nepristranskega ocenjevanja je namenjen odpravi sistematičnih napak pri ocenjevanju.

Pri reševanju ocenjevalnih problemov tudi uporabljajo asimptotično nepristranske ocene, za katero se s povečanjem velikosti vzorca matematično pričakovanje nagiba k ocenjenemu parametru splošne populacije.

Doslednost statistične ocene se kažejo v tem, da se s povečanjem velikosti vzorca ocena vedno bolj približuje resnični vrednosti parametra, ki se ocenjuje, ali, kot pravijo, ocena konvergira verjetnosti do želenega parametra ali pa teži k svojemu matematičnemu pričakovanju. Samo dosledne ocene so praktične vrednosti.

To je ocena nepristranskega parametra, ki ima najmanj variance za določeno velikost vzorca. V praksi se ocenjevalna varianca običajno enači z ocenjevalno napako.

Kot ocenjevanje učinkovitosti ukrepovvzemite razmerje med najmanjšo možno varianco in varianco druge ocene.

Imenuje se ocena, ki zagotavlja popolnost uporabe vseh informacij v vzorcu o neznanih značilnostih splošne populacije zadostno(izčrpno).

Skladnost z zgoraj obravnavanimi lastnostmi statističnih ocen omogoča, da se vzorčne značilnosti za ocenjevanje parametrov splošne populacije štejejo za najboljše možne.

Najpomembnejša naloga matematične statistike je pridobiti najbolj racionalne, "resnične" statistične ocene želenih parametrov splošne populacije iz vzorčnih podatkov. Obstajata dve vrsti statističnih sklepov: statistična ocena; preizkušanje statističnih hipotez.

Glavna naloga pridobivanja statističnih ocen je izbrati in utemeljiti najboljše ocene, ki zagotavljajo smiselno oceno neznanih parametrov splošne populacije.

Problem ocenjevanja neznanih parametrov je mogoče rešiti na dva načina:

  • 1. za neznani parameter je značilna ena številka (pika) - uporabljena je metoda točkovne ocene;
  • 2. ocena intervala, to je interval, v katerem je želeni parameter mogoče najti z določeno verjetnostjo.

Ocena točke neznani parameter je, da se določena številčna vrednost ocene vzorca vzame kot najboljši približek resničnemu parametru splošne populacije, to je, da se neznani parameter splošne populacije oceni z enim številom (točko), določeno iz vzorca. Pri tem pristopu vedno obstaja nevarnost napake, zato je treba oceno točke dopolniti s kazalnikom morebitne napake pri določeni stopnji verjetnosti.

Njegov standardni odklon je vzet kot povprečna napaka ocene.

Potem lahko točkovno oceno splošnega povprečja predstavimo kot interval

kje je aritmetična sredina vzorca.

Pri točkovni oceni se za pridobitev ocen iz vzorčnih podatkov uporablja več metod:

  • 1. metoda trenutkov, pri kateri trenutke splošne populacije nadomestijo trenutki vzorca;
  • 2. metoda najmanjših kvadratov;
  • 3. metoda največje verjetnosti.

Pri mnogih nalogah je treba najti ne le numerično oceno parametra splošne populacije, temveč tudi oceniti njegovo natančnost in zanesljivost. To je še posebej pomembno za razmeroma majhne vzorce. Splošna ocena točke statističnega parametra je njegova ocena intervala - iskanje numeričnega intervala, ki vsebuje ocenjeni parameter z določeno verjetnostjo.

Ker pri določanju splošnih značilnosti iz vzorčnih podatkov vedno pride do napake, je bolj praktično določiti interval, osredotočen na oceno najdene točke, znotraj katerega se z določeno verjetnostjo nahaja resnična želena vrednost ocenjenega parametra splošne značilnosti. To se imenuje interval zaupanja.

Interval zaupanja je številčni interval, ki z dano verjetnostjo r zajema ocenjeni parameter splošne populacije. Ta verjetnost se imenuje raven zaupanja. Verjetnost zaupanja r je verjetnost, ki jo lahko štejemo za zadostno v okviru problema, ki se rešuje, da lahko presodimo o zanesljivosti lastnosti, dobljenih na podlagi vzorčnih opazovanj. Vrednost

imenujejo se verjetnosti napake raven pomembnosti.

Za vzorec (točka) natančno ocenite I * (theta) parametra AND splošne populacije ( mejna napaka) D in stopnja zaupanja g, interval zaupanja se določi z enakostjo:

Verjetnost zaupanja r omogoča določitev meje zaupanja naključno nihanje preučenega parametra AND za dani vzorec.

Naslednje vrednosti in ustrezne vrednosti se pogosto jemljejo kot ravni zaupanja. pomembnosti

Tabela 1. - Najpogostejše stopnje zaupanja in stopnje pomembnosti

Na primer, 5-odstotna stopnja pomembnosti pomeni naslednje: v 5 od 100 primerov obstaja nevarnost napake pri prepoznavanju značilnosti splošne populacije na podlagi vzorčnih podatkov. Z drugimi besedami, v 95 od 100 primerov bo splošna značilnost, ugotovljena na podlagi vzorca, znotraj intervala zaupanja.

Porazdelitev naključne spremenljivke (porazdelitev splošne populacije) je običajno označena s številnimi številčnimi značilnostmi:

  • za normalno porazdelitev N (a, σ) sta to matematično pričakovanje a in standardni odklon σ;
  • za enakomerno porazdelitev so R (a, b) meje intervala, v katerem se opazujejo vrednosti te naključne spremenljivke.
Takšne numerične značilnosti praviloma niso znane in se imenujejo parametri populacije . Ocena parametrov - ustrezna numerična značilnost, izračunana iz vzorca. Ocene parametrov splošne populacije so razdeljene v dva razreda: točka in interval.

Ko je rezultat definiran z eno številko, se pokliče točkovna ocena... Točkovna ocena je v odvisnosti od vzorca naključna spremenljivka in se ob ponovitvi poskusa spreminja od vzorca do vzorca.
Za ocenjevanje točk veljajo zahteve, ki jih morajo izpolnjevati, da so vsaj v nekem smislu "benigni". to nepristranskost, učinkovitost in doslednost.

Ocene intervala se določita z dvema številkama - koncema intervala, ki zajema ocenjeni parameter. V nasprotju s točkovnimi ocenami, ki ne dajejo predstave o tem, kako daleč od njih je lahko ocenjeni parameter, vam intervalne ocene omogočajo, da ugotovite natančnost in zanesljivost ocen.

Kot točkovne ocene matematičnega pričakovanja, variance in standardnega odklona se uporabljajo značilnosti vzorca oziroma povprečje vzorca, varianca vzorca in standardni odklon vzorca.

Nepristranska lastnost ocene.
Zaželena zahteva za oceno je odsotnost pristranskosti, tj. pri ponavljajoči se uporabi je namesto parametra θ njegova ocena povprečna vrednost napake približevanja enaka nič - to je nepristranska ocena lastnine.

Definicija... Ocena se imenuje nepristransko, če je njeno matematično pričakovanje enako resnični vrednosti parametra, ki se ocenjuje:

Vzorčna aritmetična sredina je nepristranska ocena matematičnega pričakovanja in variance vzorca - pristranska ocena splošne variance D... Nepristranska ocena splošne variance je ocena

Lastnost skladnosti vrednotenja.
Druga zahteva za oceno - njena doslednost - pomeni, da se ocena izboljša s povečanjem velikosti vzorca.

Definicija... Ocenjevanje se imenuje skladen, če se verjetnost konvergira k ocenjenemu parametru θ pri n → ∞.


Konvergenca verjetnosti pomeni, da je pri velikem obsegu vzorca verjetnost velikih odstopanj ocene od resnične vrednosti majhna.

Lastnost učinkovite ocene.
Tretja zahteva vam omogoča, da med več ocenami istega parametra izberete najboljšo oceno.

Definicija... Nepristranska ocena je učinkovita, če ima najmanjšo varianco med vsemi nepristranskimi ocenami.

To pomeni, da ima efektivna ocena minimalno razpršenost glede na pravo vrednost parametra. Upoštevajte, da učinkovita ocena ne obstaja vedno, toda učinkovitejšo običajno lahko izberemo med obema ocenama, tj. z manj variance. Na primer, za neznani parameter a normalne splošne populacije N (a, σ) lahko vzamemo kot nepristransko oceno vzorec aritmetične sredine in vzorec mediane. Toda varianca srednje vrednosti vzorca je približno 1,6-krat večja od variance aritmetične sredine. Zato je učinkovitejša ocena vzorčna aritmetična sredina.

Primer # 1. Poiščite nepristransko oceno variance meritev neke naključne spremenljivke z eno napravo (brez sistematičnih napak), katere rezultati meritev (v mm): 13,15,17.
Sklep. Tabela za izračun kazalnikov.

x | x - x povprečno | (x - x povprečno) 2
13 2 4
15 0 0
17 2 4
45 4 8

Preprosta aritmetična sredina (nepristranska ocena matematičnega pričakovanja)


Razpršenost - označuje mero disperzije okoli njene srednje vrednosti (mera disperzije, tj. odstopanje od srednje - pristranske ocene).


Nepristranska ocena variance - dosledna ocena variance (varianca popravljena).

2. primer. Poiščite nepristransko oceno matematičnega pričakovanja meritev neke naključne spremenljivke z eno napravo (brez sistematičnih napak), katere rezultati meritev (v mm): 4,5,8,9,11.
Sklep. m \u003d (4 + 5 + 8 + 9 + 11) / 5 \u003d 7,4

3. primer. Poiščite popravljeno varianco S 2 za vzorec velikosti n \u003d 10, če je varianca vzorca D \u003d 180.
Sklep. S 2 \u003d n * D / (n-1) \u003d 10 * 180 / (10-1) \u003d 200