Що таке статистична оцінка. Аналіз подібності розподілів. Точкова оцінка параметрів розподілу

Нехай потрібно вивчити кількісний ознака генеральної сукупності. Припустимо, що з теоретичних міркувань вдалося встановити, яке саме розподіл має ознака. Виникає задача оцінки параметрів, якими визначається цей розподіл. Наприклад, якщо наперед відомо, що досліджуваний ознака розподілений в генеральної сукупності за нормальним законом, то необхідно оцінити математичне очікування і середньоквадратичне відхилення, т. К. Ці два параметри повністю визначають нормальний розподіл. Якщо є підстави вважати, що ознака має розподіл Пуассона, то необхідно оцінити параметр, яким цей розподіл визначається. Зазвичай є лише дані вибірки, отримані в результаті спостережень:,, ...,. Через ці дані і висловлюють оцінюваний параметр. Розглядаючи,, ..., як значення незалежних випадкових величин,, ...,, можна сказати, що знайти статистичну оцінку невідомого параметра теоретичного розподілу - це значить знайти функцію від спостережуваних випадкових величин, яка і дає наближене значення оцінюваного параметра.

Отже, статистичною оцінкою невідомого параметра теоретичного розподілу називають функцію від спостережуваних випадкових величин. Статистична оцінка невідомого параметра генеральної сукупності одним числом називається точкової. Нижче зазначено точкові оцінки: зміщені і незміщені, ефективні і заможні.

Для того, щоб статистичні оцінки давали хороші наближення оцінюваних параметрів, вони повинні відповідати певним вимогам. Зазначимо ці вимоги. Нехай є статистична оцінка невідомого параметра теоретичного розподілу. Припустимо, що за вибіркою обсягу знайдена оцінка. Повторимо досвід, т. Е. Винесемо їх генеральної сукупності іншу вибірку того ж обсягу і за її даними знайдемо оцінку і т. Д. Отримаємо числа,, ...,, які будуть різні між собою. Таким чином, оцінку можна розглядати як випадкову величину, а числа,, ..., - як її можливі значення.

Якщо оцінка дає наближене значення з надлишком, тоді знайдене за даними вибірок число ( ) Буде більше істинного значення. Отже, і математичне очікування (середнє значення) випадкової величини буде більше, ніж, т. Е.. Якщо дає наближене значення з недоліком, то.

Таким чином, використання статистичної оцінки, математичне очікування якої не дорівнює оцінюваному параметру, призвело б до систематичних помилок. Тому потрібно вимагати, щоб математичне сподівання оцінки було дорівнює оцінюваному параметру. Дотримання вимоги усуває систематичні помилки.

незміщеної називають статистичну оцінку, математичне очікування якої дорівнює оцінюваному параметру, т. е..

зміщеною називають статистичну оцінку, математичне очікування якої не дорівнює оцінюваному параметру.

Однак помилково вважати, що несмещенная оцінка завжди дає хороше наближення оцінюваного параметра. Дійсно, можливі значення можуть бути сильно розпорошені навколо свого середнього значення, т. Е. Дисперсія величини може бути значною. В цьому випадку знайдена за даними однієї вибірки оцінка, наприклад, може виявитися вельми віддаленої від свого середнього значення, а значить, і від самого оцінюваного параметра. Прийнявши в якості наближеного значення, ми допустили б велику помилку. Якщо зажадати, щоб дисперсія величини була малою, то можливість допустити велику помилку буде виключена. Тому до статистичної оцінки пред'являються вимоги ефективності.

ефективною називають статистичну оцінку, яка (при заданому обсязі вибірки) має найменшу можливу дисперсію. При розгляді вибірок великого обсягу до статистичних оцінок ставиться вимога спроможності.

заможної називають статистичну оцінку, яка при прагне за ймовірністю до оцінюваного параметру. Наприклад, якщо дисперсія несмещенной оцінки при прагне до нуля, то така оцінка виявляється і заможної.

Розглянемо питання про те, які вибіркові характеристики найкраще в сенсі незсуненості, ефективності та спроможності оцінюють генеральну стреднюю і дисперсію.

Нехай вивчається дискретна генеральна сукупність щодо кількісної ознаки. Генеральною середньої називається середнє арифметичне значень ознаки генеральної сукупності. Вона може бути обчислена за формулами або , Де - значення ознаки генеральної сукупності обсягу, - відповідні частоти, причому.

Нехай з генеральної сукупності в результаті незалежних спостережень над кількісною ознакою витягнута вибірка обсягу зі значеннями ознаки . вибіркової середньої називають середнє арифметичне вибіркової сукупності. Вона може бути обчислена за формулами або , Де - значення ознаки в виброчной сукупності обсягу, - відповідні частоти, причому.

Якщо генеральна середня невідома і потрібно оцінити її за даними вибірки, то в якості оцінки генеральної середньої приймають вибіркову середню, яка є несмещенной і заможної оцінкою. Звідси випливає, що якщо за кількома вибірках досить великого обсягу з однієї і тієї ж генеральної сукупності будуть знайдені вибіркові середні, то вони будуть приблизно рівні між собою. У цьому полягає властивість стійкості вибіркових середніх.

Зауважимо, що якщо дисперсії двох сукупностей однакові, то близькість вибіркових середніх до генеральних не залежить від відношення обсягу вибірки до обсягу генеральної сукупності. Вона залежить від обсягу вибірки: чим обсяг вибірки більше, тим менше вибіркова середня відрізняється від генеральної.

Для того, щоб охарактеризувати розсіювання значень кількісної ознаки генеральної сукупності навколо свого середнього значення, вводять зведену характеристику - генеральну дисперсію. Генеральною дисперсією називають середнє арифметичне квадратів відхилень значень ознаки генеральної сукупності від їх середнього значення, яка обчислюється за формулами: , або .

Для того, щоб охарактеризувати розсіювання спостережених значень кількісної ознаки вибірки навколо свого середнього значення, вводять зведену характеристику - виброрчную дисперсію. вибіркової дисперсією називають середнє арифметичне квадратів відхилень спостережених значень ознаки від їх середнього значення, яка обчислюється за формулами: , або .

Крім дисперсії, для характеристики розсіювання значень ознаки генеральної (вибіркової) сукупності навколо свого середнього значення користуються зведеної характеристикою - середнім квадратичним відхиленням. Генеральним середнім квадратичним відхиленням називають квадратний корінь з генеральної дисперсії:. Вибірковим середнім квадратичним відхиленням називають квадратний корінь з вибіркової дисперсії:

Нехай з генеральної сукупності в результаті незалежних спостережень над кількісною ознакою витягнута вибірка обсягу. Потрібно за даними вибірки оцінити невідому генеральну дисперсію. Якщо в якості оцінки генеральної дисперсії прийняти вибіркову дисперсію, то ця оцінка буде приводити до систематичних помилок, даючи занижене значення генеральної дисперсії. Пояснюється це тим, що вибіркова дисперсія є зміщеною оцінкою; іншими словами, математичне очікування вибіркової дисперсії не дорівнює оцінюваної генеральної дисперсії, а так само .

Легко виправити вибіркову дисперсію так, щоб її математичне очікування дорівнювало генеральної дисперсії. Досить для цього помножити на дріб. В результаті отримаємо виправлену дисперсію, яку зазвичай позначають через. Виправлена \u200b\u200bдисперсія буде несмещенной оцінкою генеральної дисперсії: .

2. Інтервальні оцінки.

Поряд з точковим оцінюванням статистична теорія оцінювання параметрів займається питаннями інтервального оцінювання. Завдання інтервального оцінювання можна сформулювати наступним чином: за даними вибірки побудувати числовий нітервал, щодо якого з заздалегідь обраної ймовірністю можна сказати, що всередині цього інтервалу знаходиться оцінюваний параметр. Інтервальне оцінювання особливо необхідно при малому числі спостережень, коли точкова оцінка значною мірою випадкова, отже, мало надійна.

довірчим інтервалом для параметра називається такий інтервал, щодо якого можна з заздалегідь обраної імовірністю, близькою до одиниці, стверджувати, що він містить невідоме значення параметра, т. е. . Чим менше для обраної ймовірності число, тим точніше оцінка невідомого параметра. І навпаки, якщо це число велике, то оцінка, вироблена за допомогою даного інтервалу, мало придатна для практики. Так як кінці довірчого інтервалу залежать від елементів вибірки, то значення і можуть змінюватися від вибірки до вибірки. Імовірність прийнято називати довірчою ймовірністю (надійністю). Зазвичай надійність оцінки задається наперед, причому в якості беруть число, близьке до одиниці. Вибір довірчої ймовірності не є математичною задачею, а визначається конкретної розв'язуваної проблемою. Найбільш часто задають надійність, рівну; ; .

Наведемо без виведення довірчий інтервал для генеральної середньої при відомому значенні середнього квадратичного відхилення за умови, що випадкова величина (кількісний ознака) розподілена нормально:

де - наперед заданий число, близьке до одиниці, а значення функції наведені в додатку 2.

Сенс цього співвідношення полягає в наступному: з надійністю можна стверджувати, що довірчий інтервал ( ) Покриває невідомий параметр, точність оцінки дорівнює. Число визначається з рівності, або. По таблиці (додаток2) знаходять аргумент, якому відповідає значення функції Лапласа, рівне.

приклад 1. Випадкова величина має нормальний розподіл з відомим середнім квадратичним відхиленням. Знайти довірчі інтервали для оцінки невідомої генеральної середньої за вибірковими середнім, якщо обсяг вибірок і задана надійність оцінки.

Рішення. Знайдемо. Зі співвідношення отримаємо, що. По таблиці (додаток 2) знаходимо. Знайдемо точність оцінки . Довірчі інтервали будуть такі: . Наприклад, якщо, то довірчий інтервал має такі довірчі кордону:; . Таким чином, значення невідомого параметра, узгоджуються з даними вибірки, задовольняють нерівності .

Довірчий інтервал для генеральної середньої нормального розподілу ознаки при невідомому значенні середнього квадратичного відхилення задається виразом .

Звідси випливає, що з надійністю можна стверджувати, що довірчий інтервал покриває невідомий параметр.

Є готові таблиці (додаток 4), користуючись якими, за заданими і знаходять ймовірність, і назад, по заданим і можна знайти.

приклад 2. Кількісний ознака генеральної сукупності розподілена нормально. За вибіркою обсягу знайдена вибіркова середня і виправлене середнє квадратичне відхилення. Оцінити невідому генеральну середню за допомогою довірчого інтервалу з надійністю.

Рішення. Знайдемо. Користуючись таблицею (додаток 4) за і знаходимо:. Знайдемо довірчі кордону:

Отже, з надійністю невідомий параметр укладений в довірчому інтервалі.

3. Поняття статистичної гіпотези. Загальна постановка задачі перевірки гіпотез.

Перевірка статистичних гіпотез тісно пов'язана з теорією оцінювання параметрів. У природознавстві, техніці, економіці часто для з'ясування того чи іншого випадкового факту вдаються до висловлення гіпотез, які можна перевірити статистично, т. Е. Спираючись на результати спостережень у випадковій вибірці. під статистичними гіпотезами маються на увазі такі гіпотези, які відносяться або до виду, або до окремих параметрів розподілу випадкової величини. Так, наприклад, статистичної є гіпотеза про те, що розподіл продуктивності праці робітників, що виконують однакову роботу в однакових умовах, має нормальний закон розподілу. Статистичної буде також гіпотеза про те, що середні розміри деталей, що виробляються на однотипних, паралельно працюють верстатах, не розрізняються між собою.

Статистична гіпотеза називається простий , Якщо вона однозначно визначає розподіл випадкової величини, в іншому випадку гіпотеза називається складною.Наприклад, простий гіпотезою є припущення про те, що випадкова величина розподілена за нормальним законом з математичним очікуванням, рівним нулю, і дисперсією, яка дорівнює одиниці. Якщо висловлюється припущення, що випадкова величина має нормальний розподіл з дисперсією, яка дорівнює одиниці, а математичне очікування - число з відрізка, то це складна гіпотеза. Іншим прикладом скрутній гіпотези є припущення про те, що безперервна випадкова величина з ймовірністю приймає значення з інтервалу, в цьому випадку розподіл випадкової величини може бути будь-яким з класу безперервних розподілів.

Часто розподіл величини відомо, і за вибіркою спостережень необхідно перевірити припущення про значення параметрів цього розподілу. Такі гіпотези називаються параметрическими.

Проверяемая гіпотеза називається нульовий гіпотезою і позначається. Поряд з гіпотезою розглядають одну з альтернативних (конкуруючих) гіпотез. Наприклад, якщо перевіряється гіпотеза про рівність параметра деякого заданого значення, т. Е.:, То в якості альтернативної гіпотези можна розглянути одну з наступних гіпотез::; :; :; :, Де - задане значення,. Вибір альтернативної гтпотези визначається конкретної формулюванням завдання.

Правило, за яким приймається рішення прийняти або відхилити гіпотезу, називається критерієм . Так як рішення приймається на основі вибірки спостережень випадкової величини, необхідно вибрати відповідну статистику, яка називається в цьому випадку статистикою критерію. При перевірці простий параметричної гіпотези: як статистики критерію вибирають ту ж статистику, що і для оцінки параметра.

Перевірка статистичної гіпотези грунтується на принципі, відповідно до якого малоймовірні події вважаються неможливими, а події, що мають велику ймовірність, счітяются достовірними. Цей принцип можна реалізувати наступним чином. Перед аналізом вибірки фіксується деяка мала ймовірність, звана рівнем значущості. Нехай - безліч значень статистики, а - таке підмножина, що за умови істинності гіпотези ймовірність попадання статистики критерію в дорівнює, т. Е. .

Позначимо через вибіркове значення статистики, обчислене за вибіркою спостережень. Критерій формулюється так: відхилити гіпотезу, якщо; прийняти гіпотезу, якщо. Критерій, заснований на використанні заздалегідь заданого рівня значущості, називають критерієм значимості. Безліч всіх значень статистики критерію, при яких приймається рішення відхилити гіпотезу, називається критичною областю; область називається областю прийняття гіпотези.

Рівень значущості визначає розмір критичної області. Положення критичної області на безлічі значень статистики залежить від формулювання альтернативної гіпотези. Наприклад, якщо перевіряється гіпотеза:, а альтернативна гіпотеза форімуліруется як: (), то критична область розміщується на правому (лівому) "хвості" розподілу статистики, т. Е. Має вигляд нерівності: (), де і - ті значення статистики, які приймаються з можливостями відповідно і за умови, що вірна гіпотеза. У цьому випадку критерій називається одностороннім, Відповідно правостороннім і лівостороннім. Якщо альтернативна гіпотеза формулюється як:, то критична область розміщується на обох "хвостах" розподілу, т. Е. Визначається сукупністю нерівностей і; в цьому випадку критерій називається двостороннім.

На рис. 30 показано розташування критичної області для різних альтернативних гіпотез. Тут - щільність распределеіня статистики критерію за умови, що вірна гіпотеза, - область прийняття гіпотези, .

Таким чином, перевірка параметричної статистичної гіпотези за допомогою критерію значущості може бути розбита на наступні етапи:

1) сформулювати перевіряється () і альтернативну () гіпотези;

2) призначити рівень значимості; що не узгоджується з результатами спостережень; якщо, то прийняти гіпотезу, т. е. вважати, що гіпотеза не суперечить результатам спостережень.

Зазвичай при виконанні п. П. 4 - 7 використовують статистику, квантилі яких табульовані: статистику з нормальним розподілом, статистику Стьюдента, статистику Фішера.

приклад 3. За паспортними даними автомобільного двигуна витрата палива на 100 км пробігу становить 10 л. В результаті зміни конструкції двигуна очікується, що витрата палива зменшиться. Для перевірки проводяться випробування 25 випадково відібраних автомобілів з модернізованим двигуном, причому вибіркове середнє витрат палива на 100 км пробігу за результатами випробувань склало 9,3 л. Припустимо, що вибірка витрат палива отримана з нормально розподіленої генеральної сукупності з середнім і дисперсією. За умови, що вірна гіпотеза критичної області для вихідної статистики, т. Е. Дорівнює рівню значущості. Знайти ймовірності помилок першого і другого роду для критерію з такою критичною областю. має нормальний розподіл з математичним очікуванням, рівним і дисперсією, яка дорівнює. Імовірність помилки другого роду знайдемо за формулою (11.2):

Отже, відповідно до прийнятого критерієм 13,6% автомобілів, що мають витрату палива 9 л на 100 км пробігу, класифікуються як автомобілі, що мають витрату палива 10 л.

4. Теоретичні та емпіричні частоти. Критерії згоди.

емпіричні частоти - частоти, отримані в результаті досвіду (спостереження). теоретичні частоти расcчітиваются за формулами. Для нормального закону розподілу їх можна знайти в такий спосіб:

, (11.3)

План лекції:

    поняття оцінки

    Властивості статистичних оцінок

    Методи знаходження точкових оцінок

    Інтервальне оцінювання параметрів

    Довірчий інтервал для математичного очікуванні при відомій дисперсії нормально розподіленої генеральної сукупності.

    Розподіл хі-квадрат і розподіл Стьюдента.

    Довірчий інтервал для математичного очікуванні випадкові величини, що має нормальний розподіл при невідомій дисперсії.

    Довірчий інтервал для середнього квадратичного відхилення нормального розподілу.

Список літератури:

    Вентцель, Е.С. Теорія ймовірностей [Текст] / Є.С. Вентцель. - М .: Вища школа, 2006. - 575 с.

    Гмурман, В.Є. Теорія ймовірностей і математична статистика [Текст] / В.Є. Гмурман. - М .: Вища школа, 2007. - 480 с.

    Кремер, Н.Ш. Теорія ймовірностей і математична статистика [Текст] / Н.Ш. Кремер - М: ЮНИТИ, 2002. - 543 с.

П.1. поняття оцінки

Такі розподілу, як биномиальное, показове, нормальне, є родинами розподілів, залежними від одного або декількох параметрів. Наприклад, показовий розподіл з щільністю ймовірностей, залежить від одного параметра λ, нормальний розподіл
- від двох параметрів m і σ. З умов досліджуваного завдання, як правило, ясно, про яке сімействі розподілів йде мова. Однак залишаються невідомими конкретні значення параметрів цього розподілу, що входять до виразу цікавлять нас характеристик розподілу. Тому необхідно знати хоча б наближене значення цих величин.

Нехай закон розподілу генеральної сукупності визначений з точністю до значень що входять до його розподіл параметрів
, Частина з яких може бути відома. Одним із завдань математичної статистики є знаходження оцінок невідомих параметрів за вибіркою спостережень
з генеральної сукупності. Оцінка невідомих параметрів полягає в побудові функції
від випадкової вибірки, такий, що значення цієї функції наближено дорівнює оцінюваному невідомому параметру θ . функція називається статистикою параметра θ .

статистичної оцінкою (Надалі просто оцінкою) параметра θ теоретичного розподілу називається його наближене значення, що залежить від даних вибору.

оцінка є випадковою величиною, тому що є функцією незалежних випадкових величин
; якщо зробити іншу вибірку, то функція прийме, взагалі кажучи, інше значення.

Існує два види оцінок - точкові та інтервальні.

точкової називається оцінка, яка визначається одним числом. При малому числі спостережень ці оцінки можуть призводити до грубих помилок. Щоб уникнути їх, використовують інтервальні оцінки.

інтервального називається оцінка, яка визначається двома числами - кінцями інтервалу, в якому із заданою ймовірністю укладена оцінюється величина θ .

П. 2 Властивості статистичних оцінок

величину
називають точністю оцінки. чим менше
, Тим краще, точніше визначений невідомий параметр.

До оцінки будь-якого параметра пред'являється ряд вимог, яким вона повинна задовольняти, щоб бути «близькою» до істинного значення параметра, тобто бути в якомусь сенсі «доброякісної» оцінкою. Якість оцінки визначають, перевіряючи, чи володіє вона властивостями несмещённості, ефективності та спроможності.

оцінка параметра θ називається несмещённой (Без систематичних помилок), якщо математичне сподівання оцінки збігаються з істинним значенням θ :

. (1)

Якщо рівність (1) не має місця, то оцінка називається зміщеною (З систематичними помилками). Цей зсув може бути пов'язано з помилками вимірювання, рахунку або невипадковим характером вибірки. Систематичні помилки призводять до завищення або заниження оцінки.

Для деяких завдань математичної статистики може існувати кілька несмещённих оцінок. Зазвичай перевагу віддають тій, яка володіє найменшим розсіюванням (дисперсією).

оцінка називається ефективної, Якщо вона має найменшу дисперсію серед всіх можливих несмещённих оцінок параметра θ .

нехай D() - мінімальна дисперсія, а
- дисперсія будь-який інший несмещённой оцінки параметра θ . Тоді ефективність оцінки дорівнює

. (2)

Ясно що
. чим ближче
до 1, тим ефективніше оцінка . якщо
при
, То оцінка називається асимптотично ефективної.

зауваження: Якщо оцінка зміщена, то малості її дисперсії ще не говорить про малість її похибки. Взявши, наприклад, в якості оцінки параметра θ деяке число , Отримаємо оцінку навіть з нульовою дисперсією. Однак в цьому випадку помилка (похибка)
може бути як завгодно великий.

оцінка називається заможної, Якщо зі збільшенням обсягу вибірки (
) Оцінка сходиться по ймовірності до точного значення параметра θ , Тобто якщо для будь-якого

. (3)

спроможність оцінки параметра θ означає, що з ростом n обсягу вибірки якість оцінки поліпшується.

теорема1. Вибіркова середня є несмещённой і заможної оцінкою математичного очікування.

теорема 2. Виправлена \u200b\u200bвибіркова дисперсія є несмещённой і заможної оцінкою дисперсії.

теорема 3. Емпірична функція розподілу вибірки є несмещённой і заможної оцінкою функції розподілу випадкової величини.

Нехай потрібно вивчити, наприклад, кількісний ознака генеральної сукупності. Припустимо, що з теоретичних міркувань вдалося встановити, яке саме розподіл має ознака. Природно, виникає задача оцінки параметрів, якими визначається цей розподіл. Наприклад, якщо наперед відомо, що досліджуваний ознака розподілений в генеральної сукупності нормально, то необхідно оцінити (приблизно знайти) математичне сподівання а і середнє квадратичне відхилення s, так як ці два параметри повністю визначають нормальний розподіл.

Зазвичай в розпорядженні дослідника є лише дані вибірки, наприклад, значення кількісної ознаки х 1, х 2, ..., х n, отримані в результаті n спостережень. Через ці дані і висловлюють оцінюваний параметр.

Нехай q * - статистична оцінка невідомого параметра q теоретичного розподілу. розрізняють несмещённуюі зміщену оцінки.

Несмещённойназивають статистичну оцінку q *, математичне очікування якої дорівнює оцінюваному параметру q при будь-якому обсязі вибірки, тобто

В іншому випадку, тобто якщо М (q *) ¹ q, оцінка називається зміщеною.

Вимога несмещённості означає, що не повинно бути систематичного відхилення в одну і ту ж сторону можна побачити значень від q.

До статистичної оцінки пред'являється також вимога ефективності, Що має на увазі (при заданому обсязі вибірки) найменшу можливу дисперсію, а в разі великого обсягу вибірки і вимога спроможності, Тобто практичне збіг спостережуваних значень випадкової величини з оцінюваним параметром.

Якщо статистичний матеріал представлений у вигляді варіаційного ряду, то подальший його аналіз здійснюється, як правило, за допомогою деяких постійних величин, досить повно відображають властиві досліджуваної генеральної сукупності закономірності.

До таких постійних належать середні величини, серед яких найбільш значущою є середня арифметична - вона простіше інших і за змістом, і за властивостями, і за способом отримання.

Так як при дослідженні генеральної сукупності здійснюється вибірка, то постійна величина, що характеризує вибірку, називається вибіркової середньої і позначається.

Можна показати, що є незміщена оцінкасереднього арифметичного значення ознаки генеральної сукупності, тобто

Нехай деяка сукупність розбита на частини - групи, Не обов'язково однакові за обсягом. Тоді середнє арифметичне розподілу членів груп називають груповими середніми, А середню арифметичну розподілу за тією ж ознакою всієї сукупності - загальної середньої. групиназиваються непересічними, Якщо кожен член сукупності належить тільки одній групі.

Загальна середня дорівнює середній арифметичній групових середніх всіх непересічних груп.

Приклад. Обчислити середню заробітну плату робітників підприємства за даними таблиці

Рішення. За визначенням загальна середня дорівнює

. (*)

n 1 \u003d 40, n 2 \u003d 50, n 3 \u003d 60

Середня заробітна плата робітників цеху № 1. Для її знаходження ми склали середню арифметичну зарплату по всьому цеху: 75, 85, 95 і 105 (у.о.) Для зручності ці значення можна зменшити в п'ять разів (це їх найбільший спільний дільник): 15, 17, 19, 21. Решта зрозуміло з формули.

Проробивши аналогічні операції, знайдемо,.

Підставивши отримані значення в (*), отримаємо

Середні - це постійні величини, які певним чином характеризують розподілу. Про деякі розподілах судять тільки за середніми. Наприклад, для порівняння рівнів заробітної плати в різних галузях промисловості досить порівняти середні заробітні плати в них. Однак за середніми можна судити ні про відмінності між рівнями заробітної плати найбільш високо- і низькооплачуваних працівників, ні про те, які відхилення від середньої заробітної плати мають місце.

У статистиці найбільший інтерес представляє розкид значень ознаки близько їх середньої арифметичної. На практиці і в теоретичних дослідженнях розсіювання ознаки частіше характеризується дисперсією і середнім квадратичним відхиленням.

вибіркової дисперсією D В називають середнє арифметичне квадратів відхилення спостережуваних значень ознаки від їх середнього значення.

Якщо всі значення х 1, х 2, ... х n ознаки вибірки обсягу n різні, то

. (3)

Якщо ж значення ознаки х 1, х 2, ... х k мають відповідно частоти n 1, n 2, ... n k, причому n 1 + n 2 + ... + n k \u003d n, то

. (4)

Якщо є необхідність, щоб показник розсіювання висловлювався в тих же одиницях, що і значення ознаки, то можна користуватися зведеної характеристикою - середнім квадратичним відхиленням

Для обчислення дисперсії зазвичай використовується формула

Якщо сукупність розбита на непересічні групи, то для їх характеристики можна ввести поняття групової, внутрішньогрупової, груповий і загальної дисперсії.

груповий дисперсією називається дисперсія розподілу членів j-ої групи щодо їх середньої - груповий середньої, тобто

де n i - частота значення x i, - обсяг групи j.

внутрішньогруповий дисперсією називається середня арифметична групових дисперсій

де N j (j \u003d 1, 2, ..., m) - обсяги непересічних груп.

Груповий дисперсією називається середня арифметична квадратів відхилень групових середніх всіх непересічних груп від загальної середньої, тобто

.

загальною дисперсією називають дисперсію значень ознаки всієї сукупності щодо загальної середньої

,

де n i - частота значення x i; - загальна середня; n - обсяг всієї сукупності.

Можна показати, що загальна дисперсія D дорівнює сумі, тобто

Приклад. Знайти загальну дисперсію сукупності, що складається з наступних двох груп

перша група друга група
x i n i x i n i

Рішення. Знайдемо групові середні

Знайдемо групові дисперсії

Знайдемо загальну середню

Шукана загальна дисперсія

Розглянуті вище оцінки прийнято називати точковими, Так як ці оцінки визначаються одним числом. В разі невеликого обсягу вибірки використовується інтервальна оцінка, яка визначається двома числами, Званими кінцями інтервалу.

Інтервальні оцінки дозволяють встановити точність і надійність оцінок. Пояснимо сенс цих понять. Нехай знайдена за даними вибірки статистична характеристика q * служить оцінкою невідомого параметра q. Ясно, що q * тим точніше буде визначати параметр q, чим менше абсолютна величина. Іншими словами, якщо d\u003e 0 і, то чим менше d, тим оцінка точніше.

Таким чином, число d\u003e 0 характеризує точність оцінки. Але з іншого боку статистичні методи не дозволяють категорично стверджувати, що оцінка q * задовольняє нерівності. Тут можна говорити тільки про ймовірності g, З якої ця нерівність здійснюється. Цю ймовірність g і називають надійністю (довірчою ймовірністю) оцінки q по q *.

Таким чином, зі сказаного випливає, що

Співвідношення (*) слід розуміти так: ймовірність того, що інтервал (q * - d, q * + d) укладає в собі (покриває) невідомий параметр q, дорівнює g. Інтервал (q * - d, q * + d), що покриває невідомий параметр із заданою надійністю g, називають довірчим.

Приклад.Випадкова величина Х має нормальний розподіл з відомим середнім квадратичним відхиленням s \u003d 3. Знайти довірчі інтервали для оцінки невідомого математичного очікування а по вибірковим середнім, якщо обсяг вибірки n \u003d 36 і задана надійність оцінки g \u003d 0,95.

Рішення. Зауважимо, що якщо випадкова величина Х розподілена нормально, то вибіркова середня, знайдена по незалежним спостереженнями, також розподілена нормально, а параметри розподілу такі:, (див. Стор. 54).

Вимагатимемо виконання співвідношення

.

Користуючись формулою (**) (див. Стор. 43), замінивши в ній Х на і s на, отримаємо

статистична оцінка розподіл вибірка

Оцінка - це наближення значень шуканої величини, отримане на підставі результатів вибіркового спостереження. Оцінки є випадковими величинами. Вони забезпечують можливість формування обгрунтованого судження про невідомих параметрах генеральної сукупності. Прикладом оцінки генеральної середньої є вибіркова середня генеральної дисперсії - вибіркова дисперсія і т.д.

Для того щоб оцінити наскільки «добре» оцінка відповідає відповідної генеральної характеристиці розроблені 4 критерії: спроможність, Незміщеність, ефективність і достатність. Цей підхід ґрунтується на тому, що якість оцінки визначається не по її окремим значенням, а за характеристиками її розподілу як випадкової величини.

Грунтуючись на положеннях теорії ймовірностей, можна довести, що з таких вибіркових характеристик, як середня арифметична, мода і медіана, тільки середня арифметична є заможну, несмещенную, ефективну і достатню оцінку генеральної середньої. Цим і обумовлюється перевага, що віддається середньої арифметичної в ряду інших вибіркових характеристик.

Незміщеність оцінки проявляється в тому, що її математичне очікування при будь-якому обсязі вибірки дорівнює значенню оцінюваного параметра в генеральній сукупності. Якщо ця вимога не виконується, то оцінка є зміщеною.

Умова незсуненості оцінки направлено на усунення систематичних помилок оцінювання.

При вирішенні завдань оцінювання застосовують також асимптотично незсунені оцінки, Для яких при збільшенні обсягу вибірки математичне сподівання прагне до оцінюваного параметру генеральної сукупності.

спроможність статистичних оцінок проявляється в тому, що зі збільшенням обсягу вибірки оцінка все більше і більше наближається до істинного значення оцінюваного параметра або, як кажуть, оцінка сходиться по ймовірності до шуканого параметру, або прагне до свого математичного сподівання. Лише заможні оцінки мають практичну значимість.

Це така оцінка незміщеної параметра, яка має найменшу дисперсією при даному обсязі вибірки. На практиці дисперсія оцінки зазвичай ототожнюється з помилкою оцінки.

В якості міри ефективності оцінкиприймають відношення мінімально можливій дисперсії до дисперсії іншої оцінки.

Оцінка, що забезпечує повноту використання всієї міститься у вибірці інформації про невідому характеристиці генеральної сукупності, називається достатньою(Вичерпної).

Дотримання розглянутих вище властивостей статистичних оцінок дає можливість вважати вибіркові характеристики для оцінки параметрів генеральної сукупності кращими з можливих.

Найважливіше завдання математичної статистики полягає в тому, щоб за вибірковими даними отримати найбільш раціональні, «правдиві» статистичні оцінки шуканих параметрів генеральної сукупності. Розрізняють два види статистичних висновків: статистична оцінка; перевірка статистичних гіпотез.

Основне завдання отримання статистичних оцінок полягає у виборі і обгрунтуванні найкращих оцінок, що забезпечують можливість змістовної оцінки невідомих параметрів генеральної сукупності.

Завдання оцінки невідомих параметрів може бути вирішена двома способами:

  • 1. невідомий параметр характеризується одним числом (точкою) - використовується метод точкової оцінки;
  • 2. интервальная оцінка, тобто визначається інтервал, в якому з певною ймовірністю може знаходитися шуканий параметр.

точкова оцінка невідомого параметра полягає в тому, що конкретне числове значення вибіркової оцінки приймається за найкраще наближення до істинного параметру генеральної сукупності, тобто невідомий параметр генеральної сукупності оцінюється одним числом (точкою), визначеним за вибіркою. При такому підході завжди існує ризик зробити помилку, тому точкова оцінка повинна доповнюватися показником можливої \u200b\u200bпомилки при певному рівні ймовірності.

Як середньої помилки оцінки приймається її середнє квадратичне відхилення.

Тоді точкова оцінка генеральної середньої може бути представлена \u200b\u200bу вигляді інтервалу

де - вибіркова середня арифметична.

При точкову оцінку застосовують кілька методів отримання оцінок за вибірковими даними:

  • 1. метод моментів, при якому моменти генеральної сукупності замінюються моментами вибіркової сукупності;
  • 2. метод найменших квадратів;
  • 3. метод максимальної правдоподібності.

У багатьох задачах потрібно знайти не тільки числову оцінку параметра генеральної сукупності, але і оцінити її точність і надійність. Особливо це важливо для вибірок щодо малого обсягу. Узагальненням точкової оцінки статистичного параметра є його интервальная оцінка - знаходження числового інтервалу, що містить з певною ймовірністю оцінюваний параметр.

У зв'язку з тим, що при визначенні генеральних характеристик за вибірковими даними завжди присутня деяка помилка, практичніше визначити інтервал з центром в знайденої точкову оцінку, всередині якого з деякою заданою вірогідністю знаходиться справжнє шукане значення оцінюваного параметра генеральної характеристики. Такий інтервал називають довірчим.

Довірчий інтервал - це числовий інтервал, який із заданою вірогідністю г накриває оцінюваний параметр генеральної сукупності. Таку ймовірність називають довірчою. довірча ймовірність г - це ймовірність, яку можна визнати достатньою в рамках розв'язуваної задачі для судження про достовірність характеристик, отриманих на основі вибіркових спостережень. величину

ймовірності припуститися помилки називають рівнем значущості.

Для вибіркової (точкової) оцінки І * (тета) параметра І генеральної сукупності з точністю ( граничної помилкою) Д і довірчою ймовірністю р довірчий інтервал визначається рівністю:

Довірча ймовірність г дає можливість встановити довірчі кордону випадкового коливання досліджуваного параметра І для даної вибірки.

Як довірчої ймовірності приймають найчастіше такі значення і відповідні їм рівні значущості

Таблиця 1. - Найбільш вживані довірчі ймовірності і рівні значущості

Наприклад, 5-відсотковий рівень значущості означає наступне: в 5-ти випадках з 100 існує ризик припуститися помилки при виявленні характеристик генеральної сукупності за вибірковими даними. Або, іншими словами, в 95 випадках з 100 генеральна характеристика, виявлена \u200b\u200bна основі вибірки буде лежати в межах довірчого інтервалу.

Розподіл випадкової величини (розподіл генеральної сукупності) характеризується зазвичай поруч числових характеристик:

  • для нормального розподілу N (a, σ) - це математичне очікування a і середньоквадратичне відхилення σ;
  • для рівномірного розподілу R (a, b) - це межі інтервалу, в якому спостерігаються значення цієї випадкової величини.
Такі числові характеристики, як правило, невідомі, називаються параметрами генеральної сукупності . оцінка параметра - відповідна числова характеристика, розрахована за вибіркою. Оцінки параметрів генеральної сукупності діляться на два класи: точкові і інтервальні.

Коли оцінка визначається одним числом, вона називається точкової оцінкою. Точкова оцінка, як функція від вибірки, є випадковою величиною і змінюється від вибірки до вибірки при повторному експерименті.
До точкових оцінками висувають вимоги, яким вони повинні задовольняти, щоб хоч в якомусь сенсі бути «доброякісними». це несмещённость, ефективність і спроможність.

інтервальні оцінки визначаються двома числами - кінцями інтервалу, який накриває оцінюваний параметр. На відміну від точкових оцінок, які не дають уявлення про те, як далеко від них може перебувати оцінюваний параметр, інтервальні оцінки дозволяють встановити точність і надійність оцінок.

Як точкових оцінок математичного очікування, дисперсії і середнього квадратичного відхилення використовують вибіркові характеристики відповідно вибіркове середнє, вибіркова дисперсія і вибіркове середнє квадратичне відхилення.

Властивість незсуненості оцінки.
Бажаним вимогою до оцінки є відсутність систематичної помилки, тобто при багаторазовому використанні замість параметра θ його оцінки середнє значення помилки наближення дорівнює нулю - це властивість незсуненості оцінки.

визначення. Оцінка називається несмещенной, якщо її математичне сподівання дорівнює істинного значення оцінюваного параметра:

Вибіркове середнє арифметичне є несмещенной оцінкою математичного очікування, а вибіркова дисперсія - зміщена оцінка генеральної дисперсії D. Незміщеної оцінкою генеральної дисперсії є оцінка

Властивість спроможності оцінки.
Друга вимога до оцінки - її спроможність - означає поліпшення оцінки зі збільшенням обсягу вибірки.

визначення. оцінка називається спроможною, якщо вона сходиться по ймовірності до оцінюваного параметру θ при n → ∞.


Збіжність за ймовірністю означає, що при великому обсязі вибірки ймовірність великих відхилень оцінки від істинного значення мала.

Властивість ефективної оцінки.
Третя вимога дозволяє вибрати кращу оцінку з декількох оцінок одного і того ж параметра.

визначення. Несмещенная оцінка є ефективною, якщо вона має найменшу серед усіх незміщене оцінок дисперсію.

Це означає, що ефективна оцінка має мінімальну розсіюванням щодо істинного значення параметра. Зауважимо, що ефективна оцінка існує не завжди, але з двох оцінок зазвичай можна вибрати більш ефективну, тобто з меншою дисперсією. Наприклад, для невідомого параметра a нормальної генеральної сукупності N (a, σ) в якості несмещенной оцінки можна взяти і вибіркове середнє арифметичне, і вибіркову медіану. Але дисперсія вибіркової медіани приблизно в 1.6 рази більше, ніж дисперсія середнього арифметичного. Тому більш ефективної оцінкою є вибіркове середнє арифметичне.

Приклад №1. Знайдіть несмещенную оцінку дисперсії вимірювань деякої випадкової величини одним приладом (без систематичних помилок), результати вимірювання якої (в мм): 13,15,17.
Рішення. Таблиця для розрахунку показників.

x | X - x ср | (X - x ср) 2
13 2 4
15 0 0
17 2 4
45 4 8

Проста середня арифметична (Несмещенная оцінка математичного очікування)


дисперсія - характеризує міру розкиду близько її середнього значення (міра розсіювання, тобто відхилення від середнього - зміщена оцінка).


Несмещенная оцінка дисперсії - заможна оцінка дисперсії (виправлена \u200b\u200bдисперсія).

Приклад №2. Знайдіть несмещенную оцінку математичного очікування вимірювань деякої випадкової величини одним приладом (без систематичних помилок), результати вимірювання якої (в мм): 4,5,8,9,11.
Рішення. m \u003d (4 + 5 + 8 + 9 + 11) / 5 \u003d 7.4

Приклад №3. Знайдіть виправлену дисперсію S 2 для вибірки обсягу n \u003d 10, якщо вибіркова діспресія дорівнює D \u003d 180.
Рішення. S 2 \u003d n * D / (n-1) \u003d 10 * 180 / (10-1) \u003d 200