Kas ir statistiskais novērtējums. Sadalījumu līdzības analīze. Sadalījuma parametru aplēse

Ļaujiet tai izpētīt vispārējās populācijas kvantitatīvo raksturojumu. Pieņemsim, ka pēc teorētiskiem apsvērumiem bija iespējams noteikt, kāda veida iezīmei ir sadalījums. Problēma rodas, novērtējot parametrus, kas nosaka šo sadalījumu. Piemēram, ja iepriekš ir zināms, ka pētītā pazīme ir izplatīta vispārējā populācijā saskaņā ar normālo likumu, tad ir jānovērtē matemātiskā cerība un standartnovirze, jo šie divi parametri pilnībā nosaka normālo sadalījumu. Ja ir pamats domāt, ka pazīmei ir Puasona sadalījums, tad jānovērtē parametrs, ar kuru nosaka šo sadalījumu. Parasti ir tikai paraugu dati, kas iegūti novērojumu rezultātā: ,, ...,. Izmantojot šos datus, tiek izteikts novērtētais parametrs. Ņemot vērā ,, ..., kā neatkarīgo nejaušo mainīgo lielumus ,, ..., mēs varam teikt, ka nezināmā teorētiskā sadalījuma parametra statistiskā novērtējuma atrašana nozīmē atrasto novēroto nejaušo mainīgo funkciju, kas dod aplēstā parametra aptuvenā vērtība.

Tātad, statistiskā novērtēšana nezināmu teorētiskā sadalījuma parametru sauc par novēroto nejaušo mainīgo lielumu funkciju. Tiek saukts nezināmas vispārējās populācijas parametra statistiskais novērtējums ar vienu skaitli punkts... Tiek ņemti vērā šādi punktu aprēķini: neobjektīvs pret objektīvu, efektīvs un konsekvents.

Lai statistikas aplēses ļautu labi aprēķinātos parametrus tuvināt, tām jāatbilst noteiktām prasībām. Norādīsim šīs prasības. Ir teorētiskā sadalījuma nezināmā parametra statistiskā aplēse. Pieņemsim, ka ir atrasts novērtējums parauga tilpumam. Atkārtosim eksperimentu, tas ir, mēs no vispārējās populācijas izvelkam citu tāda paša izmēra paraugu un, pēc tā datiem, atrodam tāmi utt. Iegūstam skaitļus ,, ..., kas atšķirsies no katra cits. Tādējādi novērtējumu var uzskatīt par nejaušu mainīgo, bet skaitļus ,, ..., - par tā iespējamām vērtībām.

Ja tāme dod aptuvenu vērtību ar pārsniegumu, tad skaitlis, kas atrasts no izlases datiem ( ) būs lielāka par patieso vērtību. Līdz ar to arī nejaušā lieluma matemātiskā cerība (vidējā vērtība) būs lielāka par, t.i. Ja tas dod aptuvenu vērtību ar trūkumu, tad.

Tādējādi statistiskas aplēses izmantošana, kuras matemātiskās cerības nav vienādas ar aplēsto parametru, novestu pie sistemātiskām kļūdām. Tāpēc ir jāpieprasa, lai novērtējuma matemātiskā cerība būtu vienāda ar aplēsto parametru. Atbilstība novērš sistemātiskas kļūdas.

Neobjektīvs sauc par statistisko novērtējumu, kura matemātiskā cerība ir vienāda ar aplēsto parametru, t.i.

Pārvietots sauc par statistisko novērtējumu, kura matemātiskās cerības nav vienādas ar aplēsto parametru.

Tomēr ir kļūdaini uzskatīt, ka objektīvs novērtējums vienmēr dod labu aprēķinātā parametra tuvinājumu. Patiešām, iespējamās vērtības var stipri izkaisīt ap to vidējo vērtību, t.i., daudzuma dispersija var būt ievērojama. Šajā gadījumā aprēķins, kas iegūts, piemēram, no vienas izlases datiem, var izrādīties ļoti tālu no tā vidējās vērtības un līdz ar to arī no paša aplēstā parametra. Ņemot to kā aptuvenu vērtību, mēs pieļaujam lielu kļūdu. Ja mēs pieprasām, lai daudzuma dispersija būtu maza, tiks izslēgta iespēja izdarīt lielu kļūdu. Tāpēc statistiskajam novērtējumam tiek noteiktas efektivitātes prasības.

Efektīvs ir statistiskā aplēse, kurai (noteiktam izlases lielumam) ir pēc iespējas mazāka dispersija. Apsverot liela izmēra paraugus, konsekvences prasība tiek uzlikta statistikas aplēsēm.

Turīgs sauc par statistisko novērtējumu, kura varbūtība ir tendence uz aplēsto parametru. Piemēram, ja objektīvās aplēses dispersijas vērtība ir nulle, tad arī šāds novērtējums ir konsekvents.

Apsveriet jautājumu par to, kuras izlases īpašības ir labākās objektivitātes, efektivitātes un konsekvences ziņā, kas novērtē vispārējo vidējo un dispersiju.

Ļaujiet pētīt diskrēto vispārējo populāciju attiecībā uz kvantitatīvo raksturlielumu. Vispārējā sekundārā sauc par vispārējās populācijas atribūta vērtību vidējo aritmētisko. To var aprēķināt, izmantojot formulas vai , kur ir tilpuma vispārējās populācijas raksturlieluma vērtības, atbilstošās frekvences un.

Ļaujiet kvantitatīvās pazīmes neatkarīgu novērojumu rezultātā no vispārējās populācijas iegūt apjoma paraugu ar pazīmes vērtībām . Selektīvs vidējais sauc par parauga vidējo aritmētisko. To var aprēķināt, izmantojot formulas vai , kur iezīmes vērtības tilpuma izlases populācijā ir atbilstošās frekvences un.

Ja vispārējais vidējais lielums nav zināms un ir nepieciešams to novērtēt pēc izlases datiem, tad izlases vidējo vērtību ņem par vispārējā vidējā līmeņa novērtējumu, kas ir objektīvs un konsekvents novērtējums. No tā izriet, ka, ja vairākiem pietiekami liela izmēra paraugiem no vienas un tās pašas vispārējās populācijas tiek atrasti vidējie paraugi, tad tie būs aptuveni vienādi. Šis ir īpašums izlases līdzekļu ilgtspēja.

Ņemiet vērā, ka, ja abu populāciju dispersijas ir vienādas, tad izlases vidējā vērtība tuvāk vispārējai populācijai nav atkarīga no izlases lieluma un kopējās populācijas lieluma attiecības. Tas ir atkarīgs no izlases lieluma: jo lielāks ir izlases lielums, jo mazāk izlases vidējais lielums atšķiras no vispārējā.

Lai raksturotu vispārējās populācijas kvantitatīvā raksturlieluma vērtību izkliedi ap vidējo vērtību, tiek ieviests kopsavilkuma raksturojums - vispārējā dispersija. Vispārējā dispersija Tiek saukts vispārējās populācijas atribūta vērtību noviržu kvadrātu aritmētiskais vidējais lielums no to vidējā, ko aprēķina pēc formulas: vai .

Lai raksturotu parauga kvantitatīvā atribūta novēroto vērtību izkliedi ap vidējo vērtību, tiek ieviests kopsavilkuma raksturojums - selektīva dispersija. Selektīvā dispersija sauc par atribūta novēroto vērtību noviržu kvadrātu aritmētisko vidējo vērtību no to vidējās vērtības, ko aprēķina pēc formulas: vai .

Papildus dispersijai, lai raksturotu vispārējās (izlases) populācijas atribūta vērtību izkliedi ap vidējo vērtību, tiek izmantots kopsavilkuma raksturojums - standartnovirze. Vidējā kvadrāta novirze ko sauc par vispārējās dispersijas kvadrātsakni:. Selektīvā standartnovirze ko sauc par izlases dispersijas kvadrātsakni:

Ļaujiet apjoma paraugu iegūt no vispārējās populācijas kvantitatīvās īpašības neatkarīgu novērojumu rezultātā. Nepieciešams novērtēt nezināmo vispārējo dispersiju, pamatojoties uz izlases datiem. Ja mēs ņemam izlases dispersiju kā vispārējās dispersijas novērtējumu, tad šis novērtējums novedīs pie sistemātiskām kļūdām, dodot par zemu novērtētu vispārējās dispersijas vērtību. To izskaidro fakts, ka izlases dispersija ir tendencioza aplēse; citiem vārdiem sakot, izlases dispersijas matemātiskās cerības nav vienādas ar aplēsto vispārējo dispersiju, bet ir vienādas ar .

Ir viegli izlabot izlases dispersiju tā, lai tās matemātiskā cerība būtu vienāda ar vispārējo dispersiju. Pietiek, lai to reizinātu ar daļu. Rezultātā mēs iegūstam koriģēto dispersiju, ko parasti apzīmē ar. Labotā dispersija būs objektīvs vispārējās dispersijas novērtējums: .

2. Intervāla aplēses.

Parametru novērtēšanas statistiskā teorija līdztekus punktu novērtēšanai nodarbojas ar intervālu novērtēšanas jautājumiem. Intervāla novērtēšanas problēmu var formulēt šādi: saskaņā ar izlases datiem izveidojiet skaitlisku intervālu, attiecībā pret kuru ar iepriekš izvēlētu varbūtību mēs varam teikt, ka novērtētais parametrs atrodas šajā intervālā. Intervāla novērtēšana ir īpaši nepieciešama nelielam novērojumu skaitam, kad punktu novērtējums lielākoties ir nejaušs, tāpēc tas nav pārāk uzticams.

Ticamības intervāls jo parametru sauc par intervālu, attiecībā pret kuru ar iepriekš izvēlētu varbūtību, kas ir tuvu vienībai, ir iespējams apgalvot, ka tajā ir nezināma parametra vērtība, t.i. ... Jo mazāks ir izvēlētās varbūtības skaitlis, jo precīzāks ir nezināmā parametra novērtējums. Un otrādi, ja šis skaitlis ir liels, tad aprēķins, kas veikts, izmantojot šo intervālu, nav ļoti piemērots praksei. Tā kā ticamības intervāla beigas ir atkarīgas no parauga elementiem, vērtības un var mainīties no katra parauga. Varbūtību parasti sauc par ticamības līmeni (ticamību). Parasti tāmes ticamība tiek noteikta iepriekš, un par vērtību tiek ņemts skaitlis, kas ir tuvu vienam. Uzticamības līmeņa izvēle nav matemātiska problēma, bet to nosaka konkrētā atrisinātā problēma. Visbiežāk uzticamība tiek iestatīta vienāda ar; ; ...

Dosim bez atvasinājuma ticamības intervālu vispārējam vidējam rādītājam ar zināmu standartnovirzes vērtību, ja nejaušais mainīgais (kvantitatīvā pazīme) parasti tiek sadalīts:

kur ir iepriekš noteikts skaitlis tuvu vienam, un funkcijas vērtības ir norādītas 2. papildinājumā.

Šo attiecību nozīme ir šāda: ar ticamību var apgalvot, ka ticamības intervāls ( ) aptver nezināmu parametru, novērtējuma precizitāte ir. Skaits tiek noteikts pēc vienlīdzības vai. Saskaņā ar tabulu (2. pielikums) tiek atrasts arguments, kas atbilst Laplasa funkcijas vērtībai, kas vienāda ar.

1. piemērs... Gadījuma mainīgajam ir normāls sadalījums ar zināmu standartnovirzi. Atrodiet ticamības intervālus nezināmā vispārējā vidējā līmeņa noteikšanai no izlases vidējā līmeņa, ja ir norādīts izlases lielums un novērtējuma ticamība.

Lēmums. Mēs to atradīsim. No attiecībām mēs to iegūstam. Saskaņā ar tabulu (2. pielikums) mēs atrodam. Atrodiet aprēķina precizitāti ... Uzticamības intervāli būs šādi: ... Piemēram, ja, tad ticamības intervālam ir šādas ticamības robežas :; ... Tādējādi nezināmā parametra vērtības, kas atbilst izlases datiem, apmierina nevienlīdzību .

Uzticamības intervālu pazīmes normālā sadalījuma vispārējam vidējam skaitlim ar nezināmu standartnovirzes vērtību izsaka izteiksme .

No tā izriet, ka ar ticamību var apgalvot, ka ticamības intervāls aptver nezināmu parametru.

Ir gatavas tabulas (4. pielikums), izmantojot kuras attiecībā uz doto un atrod varbūtību, un otrādi, par doto un var atrast.

2. piemērs... Vispārējās populācijas kvantitatīvais raksturojums tiek sadalīts normāli. Parauga tilpumam tika atrasts vidējais paraugs un koriģētā standartnovirze. Novērtējiet nezināmo vispārējo vidējo līmeni, izmantojot ticamības intervālu ar ticamību.

Lēmums. Mēs to atradīsim. Izmantojot tabulu (4. pielikums), atrodiet: Atradīsim ticamības robežas:

Tātad ar ticamību nezināmais parametrs ir iekļauts ticamības intervālā.

3. Statistiskās hipotēzes jēdziens. Hipotēžu pārbaudes problēmas vispārīgs formulējums.

Statistisko hipotēžu pārbaude ir cieši saistīta ar parametru novērtēšanas teoriju. Dabaszinātnēs, tehnoloģijā, ekonomikā bieži vien, lai noskaidrotu šo vai citu nejaušo faktu, viņi ķeras pie hipotēžu formulēšanas, kuras var pārbaudīt statistiski, tas ir, balstoties uz izlases izlases novērojumu rezultātiem. Zem statistikas hipotēzes netiešas ir tādas hipotēzes, kas attiecas vai nu uz nejaušā mainīgā lieluma sadalījuma veidu, vai uz atsevišķiem parametriem. Tā, piemēram, statistiskā hipotēze ir tāda, ka darba ražīguma sadalījumam strādājošajiem, kas veic to pašu darbu vienādos apstākļos, ir normāls sadalījuma likums. Arī hipotēze, ka viena un tā paša veida paralēlu darba mašīnu ražoto detaļu vidējie izmēri savā starpā neatšķiras, būs statistiska.

Tiek saukta statistiskā hipotēze vienkāršs ja tas unikāli nosaka nejaušā mainīgā sadalījumu, pretējā gadījumā tiek saukta hipotēze sarežģīti.Piemēram, vienkārša hipotēze ir pieņēmums, ka nejaušais mainīgais parasti tiek sadalīts ar nulles cerību un dispersiju, kas ir vienāda ar vienu. Ja tiek pieņemts, ka nejaušam mainīgajam ir normāls sadalījums ar dispersiju, kas vienāda ar vienu, un matemātiskā cerība ir skaitlis no segmenta, tad šī ir grūta hipotēze. Vēl viens sarežģītas hipotēzes piemērs ir pieņēmums, ka nepārtraukts nejaušs mainīgais ar varbūtību ņem vērtību no intervāla, tādā gadījumā nejaušā mainīgā lieluma sadalījums var būt jebkura no nepārtraukto sadalījumu klases.

Daudzuma sadalījums bieži ir zināms, un no novērojumu izlases ir jāpārbauda pieņēmumi par šī sadalījuma parametru vērtībām. Šādas hipotēzes sauc parametrisks.

Tiek saukta pārbaudāmā hipotēze nulles hipotēze un to apzīmē ar. Kopā ar hipotēzi tiek apsvērta viena no alternatīvām (konkurējošām) hipotēzēm. Piemēram, ja tiek pārbaudīta hipotēze par parametra vienādību ar noteiktu vērtību, ti:, tad par alternatīvu hipotēzi var uzskatīt kādu no šīm hipotēzēm ::; :; :; :, kur ir dota vērtība ,. Alternatīvas hipotēzes izvēli nosaka konkrētais problēmas formulējums.

Tiek saukts noteikums, ar kuru tiek pieņemts lēmums pieņemt vai noraidīt hipotēzi kritērijs ... Tā kā lēmums tiek pieņemts, pamatojoties uz nejauša mainīgā lieluma novērojumu izlasi, ir jāizvēlas atbilstoša statistika, ko šajā gadījumā sauc par kritēriju par statistiku. Pārbaudot vienkāršu parametru hipotēzi: kā kritērija statistiku tiek izvēlēta tā pati statistika, kas parametru novērtēšanai.

Statistiskās hipotēzes pārbaude balstās uz principu, ka maz ticamus notikumus uzskata par neiespējamiem un notikumus, kas ir ticamāki, uzskata par ticamiem. Šo principu var īstenot šādi. Pirms izlases analīzes tiek noteikta noteikta neliela varbūtība, ko sauc nozīmīguma līmenis... Ļaujiet būt statistikas vērtību kopai un būt tādai apakškopai, ka, ja hipotēze ir patiesa, statistikas kritērija varbūtība ir vienāda ar, t.i. .

Apzīmēsim ar statistikas izlases vērtību, kas aprēķināta no novērojumu izlases. Kritērijs tiek formulēts šādi: noraidīt hipotēzi, ja; pieņem hipotēzi, ja. Tiek saukts kritērijs, kas pamatojas uz iepriekš noteikta nozīmīguma līmeņa izmantošanu nozīmīguma kritērijs... Tiek saukts visu kritēriju statistikas vērtību kopums, par kuru tiek pieņemts lēmums noraidīt hipotēzi kritiskā zona; teritoriju sauc pieņemšanas zona hipotēzes.

Nozīmības līmenis nosaka kritiskās zonas lielumu. Kritiskā reģiona pozīcija statistisko vērtību kopā ir atkarīga no alternatīvās hipotēzes formulējuma. Piemēram, ja hipotēze tiek pārbaudīta: un alternatīvā hipotēze tiek formulēta šādi: (), tad kritiskais reģions atrodas statistikas sadalījuma labajā (kreisajā) “astē”, tas ir, tā forma ir nevienlīdzība: (), kur un kur ir statistikas vērtības, kuras tiek pieņemtas attiecīgi ar varbūtību un ar nosacījumu, ka hipotēze ir patiesa. Šajā gadījumā tiek saukts kritērijs vienpusējs, attiecīgi labo un kreiso. Ja alternatīvu hipotēzi formulē šādi:, tad kritiskais reģions atrodas uz abām sadalījuma "astēm", ti, to nosaka nevienlīdzību kopa un; šajā gadījumā tiek saukts kritērijs divpusējs.

Att. 30 parāda kritiskā reģiona atrašanās vietu dažādām alternatīvām hipotēzēm. Šeit ir kritērija statistikas sadalījuma blīvums ar nosacījumu, ka hipotēze ir patiesa, ir hipotēzes pieņemšanas zona, .

Tādējādi parametru statistiskās hipotēzes pārbaudi, izmantojot nozīmīguma testu, var sadalīt šādās darbībās:

1) formulē pārbaudāmas () un alternatīvas () hipotēzes;

2) piešķir nozīmīguma līmeni; kā neatbilst novērojumiem; ja, tad pieņem hipotēzi, tas ir, pieņem, ka hipotēze nav pretrunā ar novērojumu rezultātiem.

Parasti, veicot 4. - 7. punktu, tiek izmantota statistika, kuras kvantiles ir tabulētas: statistika ar normālu sadalījumu, Studenta statistika, Fišera statistika.

3. piemērs... Saskaņā ar automašīnas dzinēja pases datiem degvielas patēriņš uz 100 km nobraukums ir 10 l... Paredzams, ka motora pārveidošanas rezultātā samazināsies degvielas patēriņš. Pārbaudes tiek veiktas pārbaudes 25 no nejauši izvēlētām automašīnām ar modernizētu motoru ar vidējo degvielas patēriņa paraugu 2005 100 km nobraukums pēc testa rezultātiem bija 9,3 l... Pieņemsim, ka degvielas patēriņa paraugu iegūst no normāli sadalītas populācijas ar vidējo un dispersiju. Ar nosacījumu, ka sākotnējās statistikas kritiskā reģiona hipotēze ir patiesa, t.i., vienāda ar nozīmības līmeni. Atrodiet pirmā un otrā veida kļūdu varbūtību kritērijam ar tik kritisko apgabalu. ir normāls sadalījums ar vienādu matemātisko gaidu un dispersiju. Otrā veida kļūdas varbūtību nosaka formula (11.2):

Tāpēc saskaņā ar pieņemto kritēriju 13,6% automašīnu ar degvielas patēriņu 9 l ieslēgts 100 km nobraukums tiek klasificēti kā transportlīdzekļi ar degvielas patēriņu 10 l.

4. Teorētiskās un empīriskās frekvences. Piekrišanas kritēriji.

Empīriskās frekvences - pieredzes (novērošanas) rezultātā iegūtas frekvences. Teorētiskās frekvences tiek aprēķināti, izmantojot formulas. Normāla izplatīšanas likumam tos var atrast šādi:

, (11.3)

Lekcijas plāns:

    Novērtēšanas koncepcija

    Statistisko aprēķinu īpašības

    Metodes punktu aprēķinu atrašanai

    Intervāla parametru novērtēšana

    Uzticamības intervāls matemātiskajam gaidījumam ar zināmu normāli sadalītas vispārējās populācijas dispersiju.

    Si kvadrāta sadalījums un Studenta t sadalījums.

    Uzticamības intervāls nejauša mainīgā matemātiskajam gaidījumam, kuram ir normāls sadalījums ar nezināmu dispersiju.

    Uzticamības intervāls normālā sadalījuma standartnovirzei.

Atsauces:

    Wentzel, E.S. Varbūtību teorija [Teksts] / E.S. Wentzel. - M.: Augstākā skola, 2006. - 575 lpp.

    Gmurmans, V.E. Varbūtību teorija un matemātiskā statistika [Teksts] / V.E. Gmurmans. - M.: Augstskola, 2007. - 480 lpp.

    Krēmers, N.Š. Varbūtību teorija un matemātiskā statistika [Teksts] / N.Sh. Krēmers - M: UNITI, 2002. - 543 lpp.

A.1. Novērtēšanas koncepcija

Sadalījumi, piemēram, binomiāli, eksponenciāli, normāli, ir sadalījumu saimes, kas ir atkarīgas no viena vai vairākiem parametriem. Piemēram, eksponenciālais sadalījums ar varbūtības blīvumu ir atkarīgs no viena parametra λ, normālā sadalījuma
- no diviem parametriem m un σ. No pētāmās problēmas apstākļiem parasti ir skaidrs, par kuru sadales saimi mēs runājam. Tomēr šī sadalījuma parametru īpašās vērtības, kas ir iekļautas mūs interesējošo sadalījuma īpašību izteiksmēs, paliek nezināmas. Tāpēc ir jāzina vismaz aptuvenā šo daudzumu vērtība.

Lai vispārējās populācijas sadalījuma likums tiek noteikts līdz tā sadalījumā iekļauto parametru vērtībām
, no kuriem daži var būt zināmi. Viena no matemātiskās statistikas problēmām ir nezināmu parametru novērtējumu atrašana no novērojumu izlases
no vispārējās populācijas. Nezināmu parametru novērtēšana sastāv no funkcijas izveidošanas
no nejaušas izlases tā, ka šīs funkcijas vērtība ir aptuveni vienāda ar aplēsto nezināmo parametru θ ... Funkcija sauca statistiku parametrs θ .

Statistikas novērtējums (turpmāk vienkārši novērtējums) parametrs θ teorētisko sadalījumu sauc par tā aptuveno vērtību, atkarībā no atlases datiem.

Novērtējums ir nejaušs mainīgais, jo ir neatkarīgu nejaušu mainīgo funkcija
; ja jūs izveidojat citu paraugu, funkcijai parasti būs cita vērtība.

Ir divu veidu vērtējumi - punkts un intervāls.

Punkts ir rezultāts, ko nosaka viens skaitlis. Ar nelielu novērojumu skaitu šīs aplēses var izraisīt rupjas kļūdas. Lai no tiem izvairītos, tiek izmantoti intervālu aprēķini.

Intervāls tiek saukts novērtējums, ko nosaka divi skaitļi - tā intervāla beigas, kurā aplēstā vērtība ir saistīta ar noteiktu varbūtību θ .

2. Statistisko aprēķinu īpašības

Vērtība
sauca novērtējuma precizitāte... Jo mazāk
, jo labāk, jo precīzāk tiek noteikts nezināmais parametrs.

Jebkura parametra novērtēšanai tiek izvirzītas vairākas prasības, kurām tam jāatbilst, lai tas būtu "tuvu" parametra patiesajai vērtībai, t. būt savā ziņā "labam" novērtējumam. Novērtējuma kvalitāti nosaka, pārbaudot, vai tam piemīt objektivitātes, efektivitātes un konsekvences īpašības.

Novērtējums parametrs θ sauca objektīvs (bez sistemātiskām kļūdām), ja tāmes matemātiskās cerības sakrīt ar patieso vērtību θ :

. (1)

Ja vienlīdzība (1) neattiecas, tad aprēķins sauca pārvietots (ar sistemātiskām kļūdām). Šī novirze var rasties mērījumu kļūdu, skaitīšanas kļūdu vai nejaušas izlases dēļ. Sistemātiskas kļūdas izraisa pārvērtēšanu vai nepietiekamu novērtēšanu.

Dažām matemātiskās statistikas problēmām var būt vairāki objektīvi aprēķini. Parasti priekšroka tiek dota vismazāk izkliedētajam (izkliedētajam).

Novērtējums sauca efektīvsja tam ir mazākā dispersija starp visiem iespējamajiem objektīvajiem parametra novērtējumiem θ .

Ļaujiet būt D() Ir minimālā dispersija, un
- jebkuras citas objektīvas aplēses dispersija parametrs θ ... Tad novērtēšanas efektivitāte ir vienāds

. (2)

Tas ir skaidrs
... Tuvāk
līdz 1, jo efektīvāka tāme ... Ja
plkst
, tad tiek saukta tāme asimptotiski efektīva.

Komentēt: Ja rezultāts neobjektīvs, tad tā dispersijas mazums nenozīmē, ka tā kļūda ir maza. Piemēram, kā parametra novērtējumu θ kāds skaitlis , mēs iegūstam novērtējumu pat ar nulles dispersiju. Tomēr šajā gadījumā kļūda (kļūda)
var būt tik liels, cik vēlaties.

Novērtējums sauca turīgsja palielinās izlases lielums (
) aplēses varbūtība saplūst ar precīzu parametra vērtību θ , t.i. ja par kādu

. (3)

Novērtēšanas konsekvence parametrs θ nozīmē, ka ar izaugsmi n izlases lieluma novērtēšanas kvalitāte uzlabojas.

Teorēma1. Vidējais paraugs ir objektīvs un konsekvents paredzamās vērtības novērtējums.

Teorēma 2. Labotā izlases dispersija ir objektīvs un konsekvents dispersijas novērtējums.

Teorēma 3. Izlases empīriskā sadalījuma funkcija ir objektīvs un konsekvents nejauša mainīgā sadalījuma funkcijas novērtējums.

Ļaujiet tai izpētīt, piemēram, vispārējās populācijas kvantitatīvo iezīmi. Pieņemsim, ka pēc teorētiskiem apsvērumiem bija iespējams noteikt, kāda veida iezīmei ir sadalījums. Protams, problēma rodas, novērtējot parametrus, kas nosaka šo sadalījumu. Piemēram, ja iepriekš ir zināms, ka pētāmā iezīme parasti tiek izplatīta vispārējā populācijā, tad ir jānovērtē (aptuveni jāatrod) matemātiskā cerība a un standartnovirze s, jo šie divi parametri pilnībā nosaka normālo izplatīšana.

Parasti pētniekam ir tikai izlases dati, piemēram, kvantitatīvās pazīmes x 1, x 2, ..., x n vērtības, kas iegūtas n novērojumu rezultātā. Aprēķinātais parametrs tiek izteikts, izmantojot šos datus.

Ļaujiet q * būt teorētiskā sadalījuma nezināmā parametra q statistiskajam novērtējumam. Atšķirt objektīvsun pārvietots aplēses.

Neobjektīvssauc par statistisko novērtējumu q *, kura matemātiskā cerība ir vienāda ar aplēsto parametru q jebkuram izlases lielumam, tas ir,

Pretējā gadījumā, tas ir, ja М (q *) ¹ q, tiek izsaukta tāme pārvietots.

Prasība par objektīvumu nozīmē, ka nevajadzētu būt sistemātiskai novirzei tajā pašā virzienā, kur novērotās vērtības ir no q.

Nepieciešams arī statistiskais novērtējums efektivitāte, kas nozīmē (konkrētam izlases lielumam) iespējami mazāku dispersiju un liela parauga lieluma gadījumā prasību konsekvence, tas ir, nejaušā mainīgā lieluma novēroto vērtību praktiskā sakritība ar novērtēto parametru.

Ja statistikas materiāls tiek parādīts variāciju sērijas formā, tad tā turpmākā analīze parasti tiek veikta, izmantojot dažas nemainīgas vērtības, kas pietiekami pilnībā atspoguļo likumsakarības, kas raksturīgas vispārējai pētāmai populācijai.

Šīs konstantes ietver vidējās vērtības, starp kurām visnozīmīgākā ir vidējais aritmētiskais - tas ir vienkāršāks nekā citi pēc nozīmes, īpašībām un iegūšanas metodes.

Tā kā vispārējās populācijas pētījumā tiek veikta izlase, tiek saukta izlasi raksturojošā konstante vidējais paraugs un to apzīmē ar.

Var pierādīt, ka ir objektīvs novērtējumsvidējā aritmētiskā atribūta vispārējā populācijā, tas ir

Lai daži komplekti būtu sadalīti daļās - grupa, ne vienmēr ir vienāds tilpums. Tad tiek saukti grupas dalībnieku vidējie aritmētiskie sadalījumi grupas vidējie rādītāji, un visa populācijas viena un tā paša atribūta sadalījuma vidējais aritmētiskais ir vidējais rādītājs... Tiek sauktas grupas izjauktja katrs iedzīvotāju pārstāvis pieder tikai vienai grupai.

Kopējais vidējais ir vienāds ar visu nepārklājušos grupu vidējo aritmētisko.

Piemērs. Aprēķiniet uzņēmuma darbinieku vidējās algas saskaņā ar tabulu

Lēmums. Pēc definīcijas kopējais vidējais rādītājs ir

. (*)

n 1 \u003d 40, n 2 \u003d 50, n 3 \u003d 60

Strādnieku Nr. 1 strādājošo vidējās algas. Lai to atrastu, mēs izveidojām visas darbnīcas vidējo aritmētisko algu: 75, 85, 95 un 105 (cu) Ērtības labad šīs vērtības var samazināt ar koeficientu pieci (tas ir viņu lielākais kopīgais dalītājs): 15, 17, 19, 21. Pārējais ir skaidrs no formulas.

Veicot līdzīgas darbības, mēs atrodam ,.

Iegūtās vērtības aizstājot ar (*), mēs iegūstam

Vidējie rādītāji ir konstantes, kas zināmā veidā raksturo sadalījumus. Daži sadalījumi tiek vērtēti tikai ar līdzekļiem. Piemēram, lai salīdzinātu algu līmeņus dažādās nozarēs, pietiek salīdzināt vidējās algas tajās. Tomēr vidējos rādītājus nevar izmantot, lai spriestu par atšķirību starp visaugstāk un zemāk atalgoto darbinieku algu līmeni vai to, kādas ir novirzes no vidējās algas.

Statistikā visinteresantākais ir atribūtu vērtību sadalījums ap to vidējo aritmētisko. Praksē un teorētiskajos pētījumos pazīmes izkliedi biežāk raksturo dispersija un standartnovirze.

Selektīvā dispersija D In sauc par aritmētisko vidējo kvadrātu novirzi novērotajām atribūta vērtībām no to vidējā.

Ja visas izlases lieluma n vērtības x 1, x 2, ... x n ir atšķirīgas, tad

. (3)

Ja atribūta x 1, x 2, ... x k vērtībām ir attiecīgi frekvences n 1, n 2, ... n k un n 1 + n 2 + ... + n k \u003d n, tad

. (4)

Ja ir nepieciešams, lai izkliedes indikators tiktu izteikts tādās pašās vienībās kā atribūta vērtības, varat izmantot kopsavilkuma raksturojumu - standarta novirze

Lai aprēķinātu dispersiju, parasti tiek izmantota formula

Ja populācija ir sadalīta grupās, kas nepārklājas, tad to raksturošanai var ieviest grupas, grupas iekšējās, starpgrupu un vispārējās dispersijas jēdzienus.

Grupa dispersija ir j-tās grupas dalībnieku sadalījuma dispersija attiecībā pret viņu vidējo - grupas vidējo, tas ir

kur n i ir vērtības x i biežums, ir j grupas tilpums.

Grupas iekšienē dispersija ir grupas dispersiju vidējais aritmētiskais

kur N j (j \u003d 1, 2, ..., m) ir nesadalīto grupu tilpumi.

Starpgrupa dispersija ir visu nesadalīto grupu grupu vidējo noviržu kvadrātu aritmētiskais vidējais lielums, tas ir,

.

Ģenerālis dispersija ir visas populācijas atribūta vērtību dispersija attiecībā pret

,

kur n i ir vērtības x i biežums; - vispārējais vidējais rādītājs; n ir visu iedzīvotāju skaits.

Var pierādīt, ka kopējā dispersija D ir vienāda ar summu, t.i.

Piemērs. Atrodiet kopējo populācijas dispersiju, kas sastāv no šādām divām grupām

Pirmā grupa Otrā grupa
x i n i x i n i

Lēmums. Atrodiet grupas līdzekļus

Atrodiet grupas dispersijas

Atrodiet kopējo vidējo rādītāju

Kopējā meklētā dispersija

Iepriekš aplūkotās aplēses parasti sauc punktstā kā šīs aplēses ir noteiktas viens skaitlis... Kad mazs tilpums izlasē tiek izmantots intervāla novērtējums, ko nosaka pēc divi cipari, ko sauc par intervāla beigām.

Intervāla aprēķini ļauj mums noteikt precizitāte un uzticamība vērtējumi. Ļaujiet mums izskaidrot šo jēdzienu nozīmi. Lai statistikas raksturlielums q *, kas atrasts no izlases datiem, kalpo kā nezināmā parametra q novērtējums. Ir skaidrs, ka q * jo precīzāk tiks noteikts parametrs q, jo mazāka ir absolūtā vērtība. Citiem vārdiem sakot, ja d\u003e 0 un, tad, jo mazāks d, jo precīzāka ir aplēse.

Tādējādi raksturo skaitlis d\u003e 0 precizitāte aplēses. Bet, no otras puses, statistikas metodes neļauj kategoriski apgalvot, ka novērtējums q * apmierina nevienlīdzību. Šeit jūs varat runāt tikai par varbūtības g, ar kuru šī nevienlīdzība tiek piepildīta. Šo varbūtību g sauc uzticamība (ticamības līmenis) q aprēķini pēc q *.

Tādējādi no sacītā izriet

Saistība (*) jāsaprot šādi: varbūtība, ka intervāls (q * - d, q * + d) satur (aptver) nezināmo parametru q, ir vienāds ar g. Intervālu (q * - d, q * + d), kas aptver nezināmu parametru ar noteiktu uzticamību g, sauc par ticamības intervālu.

Piemērs.Gadījuma mainīgajam X ir normāls sadalījums ar zināmu standartnovirzi s \u003d 3. Atrodiet ticamības intervālus nezināmas matemātiskās cerības a novērtēšanai no izlases vidējā, ja izlases lielums ir n \u003d 36 un novērtējuma ticamība ir iestatīta uz g \u003d 0,95.

Lēmums. Ņemiet vērā, ka, ja nejaušais mainīgais X parasti tiek sadalīts, tad arī neatkarīgo novērojumu rezultātā iegūtais izlases vidējais lielums parasti tiek sadalīts, un sadalījuma parametri ir šādi: (sk. 54. lpp.).

Mēs pieprasām, lai attiecības

.

Izmantojot formulu (**) (skat. 43. lpp.), Aizstājot X ar un s ar, mēs iegūstam

statistiskā novērtējuma sadalījuma izlase

Novērtējums ir vēlamās vērtības vērtību tuvinājums, kas iegūts, pamatojoties uz izlases novērošanas rezultātiem. Aplēses ir nejauši mainīgie. Tie nodrošina iespēju veidot apzinātu spriedumu par nezināmiem vispārējās populācijas parametriem. Vispārējā vidējā līmeņa novērtēšanas piemērs ir vispārējās dispersijas vidējā izlase - izlases dispersija utt.

Lai novērtētu, cik "labi" novērtējums atbilst attiecīgajam vispārīgajam raksturlielumam, ir izstrādāti 4 kritēriji: konsekvence, objektivitāte, efektivitāte un pietiekamība. Šī pieeja ir balstīta uz faktu, ka tāmes kvalitāti nosaka nevis tās individuālās vērtības, bet gan tās kā nejaušā lieluma sadalījuma īpašības.

Pamatojoties uz varbūtības teorijas nosacījumiem, var pierādīt, ka no tādām izlases īpašībām kā vidējais aritmētiskais, veids un mediāna tikai vidējais aritmētiskais ir konsekvents, objektīvs, efektīvs un pietiekams vispārējā vidējā rādītāja novērtējums. Tas nosaka priekšroku vidējam aritmētiskajam skaitam starp citiem izlases raksturlielumiem.

Neobjektivitāte novērtējums izpaužas faktā, ka tā matemātiskā cerība attiecībā uz jebkuru izlases lielumu ir vienāda ar aplēstā parametra vērtību vispārējā populācijā. Ja šī prasība nav izpildīta, tad rezultāts ir pārvietots.

Neobjektīvā novērtējuma nosacījums ir paredzēts, lai novērstu sistemātiskas novērtēšanas kļūdas.

Risinot novērtēšanas problēmas, tās arī tiek piemērotas asimptotiski objektīvi aprēķini, attiecībā uz kuru, palielinoties izlases lielumam, matemātiskās cerības ir tendētas uz vispārējās populācijas aplēsto parametru.

Konsekvence statistiskās aplēses izpaužas faktā, ka, palielinoties izlases lielumam, tāme arvien vairāk tuvojas aplēstā parametra patiesajai vērtībai vai, kā saka, tāme varbūtībā saplūst ar vēlamo parametru vai mēdz tās matemātiskajām cerībām. Tikai konsekventiem vērtējumiem ir praktiska vērtība.

Tas ir objektīvā parametra novērtējums, kuram ir vismazākā dispersija noteiktam izlases lielumam. Praksē novērtējuma dispersiju parasti pielīdzina novērtēšanas kļūdai.

novērtēšanas efektivitātes pasākumiņem minimālās iespējamās dispersijas attiecību pret citas aplēses dispersiju.

Tiek saukts novērtējums, kas nodrošina visas izlasē iekļautās informācijas par vispārējās populācijas nezināmo raksturojumu pilnīgu izmantošanu pietiekams(izsmeļošs).

Atbilstība iepriekš aplūkotajām statistisko novērtējumu īpašībām ļauj uzskatīt izlases raksturlielumus vispārējās populācijas parametru novērtēšanai par labāko iespējamo.

Svarīgākais matemātiskās statistikas uzdevums ir iegūt visracionālākos, "patiesākos" statistikas novērtējumus par vēlamajiem vispārējās populācijas parametriem no izlases datiem. Pastāv divu veidu statistikas secinājumi: statistiskā novērtēšana; statistisko hipotēžu pārbaude.

Galvenais statistisko novērtējumu iegūšanas uzdevums ir atlasīt un pamatot labākos aprēķinus, kas sniedz nozīmīgu vispārējās populācijas nezināmo parametru novērtējumu.

Nezināmu parametru novērtēšanas problēmu var atrisināt divos veidos:

  • 1. nezināmu parametru raksturo viens skaitlis (punkts) - tiek izmantota punktu novērtēšanas metode;
  • 2. intervāla novērtēšana, tas ir, tiek noteikts intervāls, kurā vēlamo parametru var atrast ar zināmu varbūtību.

Punktu tāme nezināms parametrs ir tāds, ka tiek ņemta noteikta izlases tāmes skaitliskā vērtība kā vislabākais tuvinājums vispārējās populācijas patiesajam parametram, tas ir, nezināms vispārējās populācijas parametrs tiek novērtēts ar vienu skaitli (punktu), kas noteikts no izlases. Izmantojot šo pieeju, vienmēr pastāv risks kļūdīties, tāpēc punktu novērtējums jāpapildina ar iespējamās kļūdas rādītāju noteiktā varbūtības līmenī.

Tās vidējo novirzi uzskata par vidējo novērtēšanas kļūdu.

Tad vispārējo vidējo punktu novērtējumu var attēlot kā intervālu

kur ir izlases vidējais aritmētiskais.

Punktu novērtējumā, lai iegūtu aprēķinus no izlases datiem, tiek izmantotas vairākas metodes:

  • 1. momentu metode, kurā vispārējās populācijas momentus aizstāj ar izlases momentiem;
  • 2. mazāko kvadrātu metode;
  • 3. maksimālās varbūtības metode.

Daudzos uzdevumos ir nepieciešams atrast ne tikai skaitlisku vispārējās populācijas parametra novērtējumu, bet arī novērtēt tā precizitāti un uzticamību. Tas ir īpaši svarīgi salīdzinoši maziem paraugiem. Statistiskā parametra punktu novērtējuma vispārinājums ir tā intervāla novērtēšana - skaitliskā intervāla atrašana, kas satur aplēsto parametru ar noteiktu varbūtību.

Sakarā ar to, ka, nosakot vispārīgos raksturlielumus pēc izlases datiem, vienmēr ir kāda kļūda, praktiskāk ir atrastajā punktu novērtējumā centrēt intervālu, kurā atrodas aprēķinātā vispārīgā raksturlieluma parametra patiesā vēlamā vērtība ar noteiktu noteiktu varbūtību. To sauc par ticamības intervālu.

Ticamības intervāls ir skaitliskais intervāls, kas ar noteiktu varbūtību r aptver vispārējās populācijas aplēsto parametru. Šo varbūtību sauc par konfidenciālu. Pārliecības varbūtība r ir varbūtība, ko var uzskatīt par pietiekamu risināmās problēmas ietvaros, lai spriestu par raksturlielumu ticamību, pamatojoties uz izlases novērojumiem. Daudzums

tiek sauktas kļūdas varbūtības nozīmīguma līmenis.

Parauga (punktu) I * (teta) parametra UN vispārējās populācijas novērtējums ar precizitāti ( margināla kļūda) D un ticamības līmeni g, ticamības intervālu nosaka vienādība:

Uzticamības varbūtība r ļauj to noteikt uzticības robežas izlases veida pētītā parametra UN svārstības noteiktam paraugam.

Par ticamības līmeni bieži uzskata šādas vērtības un atbilstošās vērtības nozīmīguma līmeņi

1. tabula. Visizplatītākie ticamības līmeņi un nozīmīguma līmeņi

Piemēram, 5% nozīmības līmenis nozīmē sekojošo: 5 gadījumos no 100 pastāv risks kļūdīties, nosakot vispārējās populācijas raksturlielumus pēc izlases datiem. Vai, citiem vārdiem sakot, 95 gadījumos no 100 vispārīgais raksturlielums, kas atklāts, pamatojoties uz izlasi, atrodas ticamības intervālā.

Gadījuma mainīgā sadalījumu (vispārējās populācijas sadalījumu) parasti raksturo vairākas skaitliskas pazīmes:

  • normālajam sadalījumam N (a, σ) šie ir matemātiskie gaidījumi a un standartnovirze σ;
  • vienmērīgam sadalījumam R (a, b) ir intervāla robežas, kurā tiek novērotas šī nejaušā mainīgā vērtības.
Šādas skaitliskās īpašības, kā likums, nav zināmas populācijas parametri . Parametru novērtēšana - attiecīgais skaitliskais raksturlielums, kas aprēķināts pēc parauga. Parastās populācijas parametru aplēses ir sadalītas divās klasēs: punkts un intervāls.

Kad rezultātu nosaka viens skaitlis, tas tiek izsaukts punktu novērtējums... Punktu novērtējums kā parauga funkcija ir nejaušs lielums un mainās no parauga uz paraugu, atkārtojot eksperimentu.
Uz punktu vērtējumiem attiecas prasības, kas tiem jāatbilst, lai vismaz kaut kādā ziņā būtu "labdabīgi". to objektivitāte, efektivitāte un konsekvence.

Intervāla aplēses tiek noteikti ar diviem skaitļiem - intervāla beigas, kas aptver aplēsto parametru. Atšķirībā no punktu aprēķiniem, kas nedod priekšstatu par to, cik tālu no tiem var būt aprēķinātais parametrs, intervālu aprēķini ļauj noteikt aprēķinu precizitāti un ticamību.

Kā matemātisko cerību, dispersijas un standartnovirzes punktu novērtējums tiek izmantots attiecīgi izlases raksturojums, vidējais parauga lielums, dispersijas displejs un izlases standartnovirze.

Objektīvā novērtējuma īpašība.
Vēlama vērtēšanas prasība ir tāda, ka nav neobjektivitātes, t.i. atkārtoti lietojot, parametra θ vietā tā aptuvenā tuvināšanas kļūdas vidējā vērtība ir nulle - tas ir objektīvs novērtējums īpašums.

Definīcija... Novērtējumu sauc par objektīvu, ja tā matemātiskā cerība ir vienāda ar novērtētā parametra patieso vērtību:

Izlases vidējais aritmētiskais ir objektīvs matemātisko cerību un izlases dispersijas novērtējums - neobjektīvs vispārējās dispersijas novērtējums D... Novērtējums ir objektīvs vispārējās dispersijas novērtējums

Vērtēšanas konsekvences īpašība.
Otrā tāmes prasība - tās konsekvence - nozīmē, ka tāme uzlabojas, palielinoties izlases lielumam.

Definīcija... Novērtējums sauc par konsekventu, ja tā varbūtības gadījumā saplūst ar aplēsto parametru θ kā n → ∞.


Konverģence varbūtības gadījumā nozīmē, ka ar lielu izlases lielumu lielu novērtējuma noviržu no patiesās vērtības varbūtība ir maza.

Efektīva novērtēšanas īpašība.
Trešā prasība ļauj izvēlēties labāko novērtējumu no vairākiem viena un tā paša parametra novērtējumiem.

Definīcija... Neobjektīvs novērtējums ir efektīvs, ja tam ir mazākā dispersija starp visām objektīvajām aplēsēm.

Tas nozīmē, ka efektīvai tāmei ir minimāla izkliede attiecībā pret parametra patieso vērtību. Ņemiet vērā, ka efektīva tāme ne vienmēr pastāv, bet efektīvāko parasti var izvēlēties no abām aplēsēm, t.i. ar mazāku dispersiju. Piemēram, nezināmajam normālās vispārējās populācijas N parametram a (a, σ) kā neobjektīvo novērtējumu var ņemt gan izlases aritmētisko vidējo, gan izlases mediānu. Bet parauga vidējā dispersija ir aptuveni 1,6 reizes lielāka nekā vidējā aritmētiskā. Tāpēc efektīvāka aplēse ir izlases vidējais aritmētiskais.

1. piemērs. Atrodiet objektīvo dažu nejaušo mainīgo mērījumu dispersijas novērtējumu ar vienu ierīci (bez sistemātiskām kļūdām), kuru mērījumu rezultāti (mm): 13,15,17.
Lēmums. Tabula rādītāju aprēķināšanai.

x | x - x vid. | (x - x vid.) 2
13 2 4
15 0 0
17 2 4
45 4 8

Vienkāršais vidējais aritmētiskais (objektīvs matemātisko cerību novērtējums)


Izkliede - raksturo izkliedes mēru ap tā vidējo (izkliedes mērs, t.i. novirzes no vidējā - tendenciozā novērtējuma).


Neobjektīvs dispersijas novērtējums - konsekventa dispersijas aplēse (dispersija koriģēta).

2. piemērs. Atrodiet objektīvo dažu nejaušo mainīgo mērījumu ar vienu ierīci (bez sistemātiskām kļūdām) mērījumu matemātiskās gaidas, kuru mērījumu rezultāti (mm): 4,5,8,9,11.
Lēmums. m \u003d (4 + 5 + 8 + 9 + 11) / 5 \u003d 7,4

3. piemērs. Atrodiet koriģēto dispersiju S 2 paraugam ar lielumu n \u003d 10, ja parauga dispersija ir D \u003d 180.
Lēmums. S 2 \u003d n * D / (n-1) \u003d 10 * 180 / (10-1) \u003d 200