Оцінка статистичних характеристик випадкових даних. Аналіз подібності розподілів. Точкові статистичні оцінки

Нехай потрібно вивчити кількісний ознака генеральної сукупності. Припустимо, що з теоретичних міркувань вдалося встановити, яке саме розподіл має ознака. Виникає задача оцінки параметрів, якими визначається цей розподіл. Наприклад, якщо наперед відомо, що досліджуваний ознака розподілений в генеральної сукупності за нормальним законом, то необхідно оцінити математичне очікування і середньоквадратичне відхилення, т. К. Ці два параметри повністю визначають нормальний розподіл. Якщо є підстави вважати, що ознака має розподіл Пуассона, то необхідно оцінити параметр, яким цей розподіл визначається. Зазвичай є лише дані вибірки, отримані в результаті спостережень:,, ...,. Через ці дані і висловлюють оцінюваний параметр. Розглядаючи,, ..., як значення незалежних випадкових величин,, ...,, можна сказати, що знайти статистичну оцінку невідомого параметра теоретичного розподілу - це значить знайти функцію від спостережуваних випадкових величин, яка і дає наближене значення оцінюваного параметра.

Отже, статистичною оцінкою невідомого параметра теоретичного розподілу називають функцію від спостережуваних випадкових величин. Статистична оцінка невідомого параметра генеральної сукупності одним числом називається точкової. Нижче зазначено точкові оцінки: зміщені і незміщені, ефективні і заможні.

Для того, щоб статистичні оцінки давали хороші наближення оцінюваних параметрів, вони повинні відповідати певним вимогам. Зазначимо ці вимоги. Нехай є статистична оцінка невідомого параметра теоретичного розподілу. Припустимо, що за вибіркою обсягу знайдена оцінка. Повторимо досвід, т. Е. Винесемо їх генеральної сукупності іншу вибірку того ж обсягу і за її даними знайдемо оцінку і т. Д. Отримаємо числа,, ...,, які будуть різні між собою. Таким чином, оцінку можна розглядати як випадкову величину, а числа,, ..., - як її можливі значення.

Якщо оцінка дає наближене значення з надлишком, тоді знайдене за даними вибірок число ( ) Буде більше істинного значення. Отже, і математичне очікування (середнє значення) випадкової величини буде більше, ніж, т. Е.. Якщо дає наближене значення з недоліком, то.

Таким чином, використання статистичної оцінки, математичне очікування якої не дорівнює оцінюваному параметру, призвело б до систематичних помилок. Тому потрібно вимагати, щоб математичне сподівання оцінки було дорівнює оцінюваному параметру. Дотримання вимоги усуває систематичні помилки.

незміщеної називають статистичну оцінку, математичне очікування якої дорівнює оцінюваному параметру, т. е..

зміщеною називають статистичну оцінку, математичне очікування якої не дорівнює оцінюваному параметру.

Однак помилково вважати, що несмещенная оцінка завжди дає хороше наближення оцінюваного параметра. Дійсно, можливі значення можуть бути сильно розпорошені навколо свого середнього значення, т. Е. Дисперсія величини може бути значною. В цьому випадку знайдена за даними однієї вибірки оцінка, наприклад, може виявитися вельми віддаленої від свого середнього значення, а значить, і від самого оцінюваного параметра. Прийнявши в якості наближеного значення, ми допустили б велику помилку. Якщо зажадати, щоб дисперсія величини була малою, то можливість допустити велику помилку буде виключена. Тому до статистичної оцінки пред'являються вимоги ефективності.

ефективною називають статистичну оцінку, яка (при заданому обсязі вибірки) має найменшу можливу дисперсію. При розгляді вибірок великого обсягу до статистичних оцінок ставиться вимога спроможності.

заможної називають статистичну оцінку, яка при прагне за ймовірністю до оцінюваного параметру. Наприклад, якщо дисперсія несмещенной оцінки при прагне до нуля, то така оцінка виявляється і заможної.

Розглянемо питання про те, які вибіркові характеристики найкраще в сенсі незсуненості, ефективності та спроможності оцінюють генеральну стреднюю і дисперсію.

Нехай вивчається дискретна генеральна сукупність щодо кількісної ознаки. Генеральною середньої називається середнє арифметичне значень ознаки генеральної сукупності. Вона може бути обчислена за формулами або , Де - значення ознаки генеральної сукупності обсягу, - відповідні частоти, причому.

Нехай з генеральної сукупності в результаті незалежних спостережень над кількісною ознакою витягнута вибірка обсягу зі значеннями ознаки . вибіркової середньої називають середнє арифметичне вибіркової сукупності. Вона може бути обчислена за формулами або , Де - значення ознаки в виброчной сукупності обсягу, - відповідні частоти, причому.

Якщо генеральна середня невідома і потрібно оцінити її за даними вибірки, то в якості оцінки генеральної середньої приймають вибіркову середню, яка є несмещенной і заможної оцінкою. Звідси випливає, що якщо за кількома вибірках досить великого обсягу з однієї і тієї ж генеральної сукупності будуть знайдені вибіркові середні, то вони будуть приблизно рівні між собою. У цьому полягає властивість стійкості вибіркових середніх.

Зауважимо, що якщо дисперсії двох сукупностей однакові, то близькість вибіркових середніх до генеральних не залежить від відношення обсягу вибірки до обсягу генеральної сукупності. Вона залежить від обсягу вибірки: чим обсяг вибірки більше, тим менше вибіркова середня відрізняється від генеральної.

Для того, щоб охарактеризувати розсіювання значень кількісної ознаки генеральної сукупності навколо свого середнього значення, вводять зведену характеристику - генеральну дисперсію. Генеральною дисперсією називають середнє арифметичне квадратів відхилень значень ознаки генеральної сукупності від їх середнього значення, яка обчислюється за формулами: , або .

Для того, щоб охарактеризувати розсіювання спостережених значень кількісної ознаки вибірки навколо свого середнього значення, вводять зведену характеристику - виброрчную дисперсію. вибіркової дисперсією називають середнє арифметичне квадратів відхилень спостережених значень ознаки від їх середнього значення, яка обчислюється за формулами: , або .

Крім дисперсії, для характеристики розсіювання значень ознаки генеральної (вибіркової) сукупності навколо свого середнього значення користуються зведеної характеристикою - середнім квадратичним відхиленням. Генеральним середнім квадратичним відхиленням називають квадратний корінь з генеральної дисперсії:. Вибірковим середнім квадратичним відхиленням називають квадратний корінь з вибіркової дисперсії:

Нехай з генеральної сукупності в результаті незалежних спостережень над кількісною ознакою витягнута вибірка обсягу. Потрібно за даними вибірки оцінити невідому генеральну дисперсію. Якщо в якості оцінки генеральної дисперсії прийняти вибіркову дисперсію, то ця оцінка буде приводити до систематичних помилок, даючи занижене значення генеральної дисперсії. Пояснюється це тим, що вибіркова дисперсія є зміщеною оцінкою; іншими словами, математичне очікування вибіркової дисперсії не дорівнює оцінюваної генеральної дисперсії, а так само .

Легко виправити вибіркову дисперсію так, щоб її математичне очікування дорівнювало генеральної дисперсії. Досить для цього помножити на дріб. В результаті отримаємо виправлену дисперсію, яку зазвичай позначають через. Виправлена \u200b\u200bдисперсія буде несмещенной оцінкою генеральної дисперсії: .

2. Інтервальні оцінки.

Поряд з точковим оцінюванням статистична теорія оцінювання параметрів займається питаннями інтервального оцінювання. Завдання інтервального оцінювання можна сформулювати наступним чином: за даними вибірки побудувати числовий нітервал, щодо якого з заздалегідь обраної ймовірністю можна сказати, що всередині цього інтервалу знаходиться оцінюваний параметр. Інтервальне оцінювання особливо необхідно при малому числі спостережень, коли точкова оцінка значною мірою випадкова, отже, мало надійна.

довірчим інтервалом для параметра називається такий інтервал, щодо якого можна з заздалегідь обраної імовірністю, близькою до одиниці, стверджувати, що він містить невідоме значення параметра, т. е. . Чим менше для обраної ймовірності число, тим точніше оцінка невідомого параметра. І навпаки, якщо це число велике, то оцінка, вироблена за допомогою даного інтервалу, мало придатна для практики. Так як кінці довірчого інтервалу залежать від елементів вибірки, то значення і можуть змінюватися від вибірки до вибірки. Імовірність прийнято називати довірчою ймовірністю (надійністю). Зазвичай надійність оцінки задається наперед, причому в якості беруть число, близьке до одиниці. Вибір довірчої ймовірності не є математичною задачею, а визначається конкретної розв'язуваної проблемою. Найбільш часто задають надійність, рівну; ; .

Наведемо без виведення довірчий інтервал для генеральної середньої при відомому значенні середнього квадратичного відхилення за умови, що випадкова величина (кількісний ознака) розподілена нормально:

де - наперед заданий число, близьке до одиниці, а значення функції наведені в додатку 2.

Сенс цього співвідношення полягає в наступному: з надійністю можна стверджувати, що довірчий інтервал ( ) Покриває невідомий параметр, точність оцінки дорівнює. Число визначається з рівності, або. По таблиці (додаток2) знаходять аргумент, якому відповідає значення функції Лапласа, рівне.

приклад 1. Випадкова величина має нормальний розподіл з відомим середнім квадратичним відхиленням. Знайти довірчі інтервали для оцінки невідомої генеральної середньої за вибірковими середнім, якщо обсяг вибірок і задана надійність оцінки.

Рішення. Знайдемо. Зі співвідношення отримаємо, що. По таблиці (додаток 2) знаходимо. Знайдемо точність оцінки . Довірчі інтервали будуть такі: . Наприклад, якщо, то довірчий інтервал має такі довірчі кордону:; . Таким чином, значення невідомого параметра, узгоджуються з даними вибірки, задовольняють нерівності .

Довірчий інтервал для генеральної середньої нормального розподілу ознаки при невідомому значенні середнього квадратичного відхилення задається виразом .

Звідси випливає, що з надійністю можна стверджувати, що довірчий інтервал покриває невідомий параметр.

Є готові таблиці (додаток 4), користуючись якими, за заданими і знаходять ймовірність, і назад, по заданим і можна знайти.

приклад 2. Кількісний ознака генеральної сукупності розподілена нормально. За вибіркою обсягу знайдена вибіркова середня і виправлене середнє квадратичне відхилення. Оцінити невідому генеральну середню за допомогою довірчого інтервалу з надійністю.

Рішення. Знайдемо. Користуючись таблицею (додаток 4) за і знаходимо:. Знайдемо довірчі кордону:

Отже, з надійністю невідомий параметр укладений в довірчому інтервалі.

3. Поняття статистичної гіпотези. Загальна постановка задачі перевірки гіпотез.

Перевірка статистичних гіпотез тісно пов'язана з теорією оцінювання параметрів. У природознавстві, техніці, економіці часто для з'ясування того чи іншого випадкового факту вдаються до висловлення гіпотез, які можна перевірити статистично, т. Е. Спираючись на результати спостережень у випадковій вибірці. під статистичними гіпотезами маються на увазі такі гіпотези, які відносяться або до виду, або до окремих параметрів розподілу випадкової величини. Так, наприклад, статистичної є гіпотеза про те, що розподіл продуктивності праці робітників, що виконують однакову роботу в однакових умовах, має нормальний закон розподілу. Статистичної буде також гіпотеза про те, що середні розміри деталей, що виробляються на однотипних, паралельно працюють верстатах, не розрізняються між собою.

Статистична гіпотеза називається простий , Якщо вона однозначно визначає розподіл випадкової величини, в іншому випадку гіпотеза називається складною.Наприклад, простий гіпотезою є припущення про те, що випадкова величина розподілена за нормальним законом з математичним очікуванням, рівним нулю, і дисперсією, яка дорівнює одиниці. Якщо висловлюється припущення, що випадкова величина має нормальний розподіл з дисперсією, яка дорівнює одиниці, а математичне очікування - число з відрізка, то це складна гіпотеза. Іншим прикладом скрутній гіпотези є припущення про те, що безперервна випадкова величина з ймовірністю приймає значення з інтервалу, в цьому випадку розподіл випадкової величини може бути будь-яким з класу безперервних розподілів.

Часто розподіл величини відомо, і за вибіркою спостережень необхідно перевірити припущення про значення параметрів цього розподілу. Такі гіпотези називаються параметрическими.

Проверяемая гіпотеза називається нульовий гіпотезою і позначається. Поряд з гіпотезою розглядають одну з альтернативних (конкуруючих) гіпотез. Наприклад, якщо перевіряється гіпотеза про рівність параметра деякого заданого значення, т. Е.:, То в якості альтернативної гіпотези можна розглянути одну з наступних гіпотез::; :; :; :, Де - задане значення,. Вибір альтернативної гтпотези визначається конкретної формулюванням завдання.

Правило, за яким приймається рішення прийняти або відхилити гіпотезу, називається критерієм . Так як рішення приймається на основі вибірки спостережень випадкової величини, необхідно вибрати відповідну статистику, яка називається в цьому випадку статистикою критерію. При перевірці простий параметричної гіпотези: як статистики критерію вибирають ту ж статистику, що і для оцінки параметра.

Перевірка статистичної гіпотези грунтується на принципі, відповідно до якого малоймовірні події вважаються неможливими, а події, що мають велику ймовірність, счітяются достовірними. Цей принцип можна реалізувати наступним чином. Перед аналізом вибірки фіксується деяка мала ймовірність, звана рівнем значущості. Нехай - безліч значень статистики, а - таке підмножина, що за умови істинності гіпотези ймовірність попадання статистики критерію в дорівнює, т. Е. .

Позначимо через вибіркове значення статистики, обчислене за вибіркою спостережень. Критерій формулюється так: відхилити гіпотезу, якщо; прийняти гіпотезу, якщо. Критерій, заснований на використанні заздалегідь заданого рівня значущості, називають критерієм значимості. Безліч всіх значень статистики критерію, при яких приймається рішення відхилити гіпотезу, називається критичною областю; область називається областю прийняття гіпотези.

Рівень значущості визначає розмір критичної області. Положення критичної області на безлічі значень статистики залежить від формулювання альтернативної гіпотези. Наприклад, якщо перевіряється гіпотеза:, а альтернативна гіпотеза форімуліруется як: (), то критична область розміщується на правому (лівому) "хвості" розподілу статистики, т. Е. Має вигляд нерівності: (), де і - ті значення статистики, які приймаються з можливостями відповідно і за умови, що вірна гіпотеза. У цьому випадку критерій називається одностороннім, Відповідно правостороннім і лівостороннім. Якщо альтернативна гіпотеза формулюється як:, то критична область розміщується на обох "хвостах" розподілу, т. Е. Визначається сукупністю нерівностей і; в цьому випадку критерій називається двостороннім.

На рис. 30 показано розташування критичної області для різних альтернативних гіпотез. Тут - щільність распределеіня статистики критерію за умови, що вірна гіпотеза, - область прийняття гіпотези, .

Таким чином, перевірка параметричної статистичної гіпотези за допомогою критерію значущості може бути розбита на наступні етапи:

1) сформулювати перевіряється () і альтернативну () гіпотези;

2) призначити рівень значимості; що не узгоджується з результатами спостережень; якщо, то прийняти гіпотезу, т. е. вважати, що гіпотеза не суперечить результатам спостережень.

Зазвичай при виконанні п. П. 4 - 7 використовують статистику, квантилі яких табульовані: статистику з нормальним розподілом, статистику Стьюдента, статистику Фішера.

приклад 3. За паспортними даними автомобільного двигуна витрата палива на 100 км пробігу становить 10 л. В результаті зміни конструкції двигуна очікується, що витрата палива зменшиться. Для перевірки проводяться випробування 25 випадково відібраних автомобілів з модернізованим двигуном, причому вибіркове середнє витрат палива на 100 км пробігу за результатами випробувань склало 9,3 л. Припустимо, що вибірка витрат палива отримана з нормально розподіленої генеральної сукупності з середнім і дисперсією. За умови, що вірна гіпотеза критичної області для вихідної статистики, т. Е. Дорівнює рівню значущості. Знайти ймовірності помилок першого і другого роду для критерію з такою критичною областю. має нормальний розподіл з математичним очікуванням, рівним і дисперсією, яка дорівнює. Імовірність помилки другого роду знайдемо за формулою (11.2):

Отже, відповідно до прийнятого критерієм 13,6% автомобілів, що мають витрату палива 9 л на 100 км пробігу, класифікуються як автомобілі, що мають витрату палива 10 л.

4. Теоретичні та емпіричні частоти. Критерії згоди.

емпіричні частоти - частоти, отримані в результаті досвіду (спостереження). теоретичні частоти расcчітиваются за формулами. Для нормального закону розподілу їх можна знайти в такий спосіб:

, (11.3)

Питання статистичної оцінки пов'язують в єдине ціле такі проблемні аспекти математичної статистики, як наукова методологія, випадкові величини, статистичні розподілу і ін. Для будь-якої вибірки притаманні помилки, обумовлені неповнотою охоплення одиниць, помилками виміру і тому подібними причинами. Такі помилки в реальному житті надають кожній гіпотезі (зокрема, сформульованої на базі економічних висновків) випадковий, стохастичний характер. Незалежно від кількості змінних, передбачених теоретичними гіпотезами, робиться припущення, що вплив різних видів помилок може бути досить точно описаний за допомогою тільки однієї складової. Такий методологічний підхід дозволяє обмежитися одномірним розподілом ймовірностей при одночасному оцінюванні декількох параметрів.

статистична оцінка - це один з двох типів статистичного судження (другий тип - перевірка гіпотез). Вона являє собою особливого роду метод судження про числові значення характеристик (параметрів) розподілу генеральної сукупності за даними вибірки з цієї сукупності. Тобто, маючи результати вибіркового спостереження, ми намагаємося оцінити (з найбільшою точністю) значення певних параметрів, від яких залежить розподіл ознаки (змінної), яка нас цікавить, в генеральній сукупності. Оскільки вибірка включає тільки частину одиниць генеральної сукупності (іноді дуже мале їх число), існує ризик припуститися помилки. Незважаючи на зменшення такого ризику зі збільшенням числа одиниць спостереження, він все ж має місце при вибірковому спостереженні. Звідси, прийнятим за результатами вибірки рішенням надають імовірнісний характер. Але було б неправильно розглядати статистичні судження тільки з позицій ймовірностей. Такий підхід не завжди виявляється достатнім для побудови правильних теоретичних припущень щодо параметрів генеральної сукупності. Часто потрібен ще ряд додаткових міркувань, які б забезпечили більш глибоке обгрунтування. Наприклад, потрібно оцінити з максимальною наближенням значення середньої чисельності кваліфікованих робітників на підприємствах регіону. При цьому оцінюється середня арифметична змінної х з генеральної сукупності, яка має нормальний розподіл. Отримавши вибірку за цією ознакою в кількості п одиниць, необхідно вирішити питання: яку величину за даними вибірки необхідно прийняти як найбільш близьку до середньої в генеральній сукупності? Таких величин, математичне очікування яких дорівнює шуканого параметру (або близьке до нього), можна навести кілька: а) середня арифметична; б) мода; в) медіана; г) середня, обчислена за розмахом варіації, і т.д.

З ймовірнісної точки зору кожної з названих вище величин можна вважати дають найкраще наближення до шуканого параметра генеральної сукупності (х), оскільки математичне очікування кожної з цих функцій (особливо для великих вибірок) дорівнює генеральної середньої. Обумовлено таке припущення тим, що при багаторазовому повторенні вибірки з тієї ж генеральної сукупності буде отримано "в середньому" вірний результат.

Правильність "в середньому" пояснюється рівністю повторень позитивних і негативних відхилень виникають помилок оцінки генеральної середньої, тобто середня помилка оцінки буде дорівнює нулю.

У практичних умовах, як правило, організовують одну вибірку, тому дослідника цікавить питання про більш точну оцінку шуканого параметра за результатами конкретної вибірки. Для вирішення такого завдання, крім висновків, які випливають безпосередньо з абстрактного обчислення ймовірностей, потрібні додаткові правила мотивації найкращого наближення оцінки до шуканого параметра генеральної сукупності.

Існує достатня кількість способів оцінки констант за вибірковими спостереженнями. Які з них кращі в рішенні конкретних завдань дослідження - займається теорія статистичного оцінювання. Вона досліджує умови, яким повинна підкорятися та чи інша оцінка, орієнтує на оцінки, більш кращі при даних обставинах. Теорія оцінок вказує на перевагу однієї оцінки в порівнянні з іншого.

Як відомо, інформація, отримана на основі вибірки, не носить категоричного характеру в ув'язненні. Якщо, наприклад, вивчаються 100 голів тварин по їх захворювання здоровими виявилися 99, то існує ймовірність, що одна тварина, яке залишилося необследованной саме носить в собі вірус передбачуваного захворювання. Оскільки це малоймовірно, робиться висновок про відсутність даного захворювання. У більшості випадків такий висновок повністю виправдовується.

Керуючись подібними висновками в практичній діяльності, експериментатор (дослідник) спирається не на достовірність інформації, а тільки на її ймовірність.

Інша сторона вибіркового спостереження, як уже зазначалося, вирішує завдання максимально об'єктивного визначення ступеня надійності одержуваних вибіркових оцінок. Вирішенню цього завдання намагаються надати якомога точнішу імовірнісний вираз, тобто мова йде про визначення ступеня точності оцінки. Тут дослідник визначає межі можливого розбіжності між оцінкою, отриманої при вибірці, і дійсним значенням її величини в генеральній сукупності.

Точність оцінки обумовлено способом її розрахунку за даними вибірки та способом відбору одиниць у вибіркову сукупність.

Спосіб отримання оцінок передбачає будь-яку обчислювальну процедуру (метод, правило, алгебраїчну формулу). Це пріоритет теорії статистичного оцінювання. Способи відбору ведуть до питань техніки здійснення вибіркового дослідження.

Викладене вище дозволяє дати визначення поняттю "статистична оцінка".

статистична оцінка - це наближене значення шуканого параметра генеральної сукупності, яке отримано за результатами вибірки і забезпечує можливість прийняття обґрунтованих рішень про невідомих параметри генеральної сукупності.

Припустимо, що ^ "- статистична оцінка невідомого параметра ^ теоретичного розподілу. За багаторазово здійснюваними однакового

Обсяг вибірки з генеральної сукупності знайдено оцінки і 2 ^ "" п,

мають різні значення. Тому оцінку ^ ", можна розглядати як

випадкову величину, а +17 дві, 3 ~ "п - як її можливі значення. Як випадкова величина, вона характеризується певною функцією щільності ймовірностей. Оскільки ця функція зумовлена \u200b\u200bрезультатом вибіркового спостереження (експерименту), то її називають вибірковим розподілом. Така функція описує щільність ймовірності для кожної з оцінок, використовуючи певне число вибіркових

спостережень. Якщо припустити, що, статистична оцінка ^ ", - це алгебраїчна функція від певного набору даних і такий набір буде отримано при здійсненні вибіркового спостереження, то в

загалом вигляді оцінка отримає вираз: ® п \u003d f (Xl.X2, ^ 3, ... Х т).

Після закінчення вибіркового обстеження дана функція вже не є оцінкою загального вигляду, а приймає - конкретне значення, тобто стає кількісній оцінці (числом). Інакше кажучи, з вищенаведеного виразу функції випливає, що будь-який з показників, що характеризують результати вибіркового спостереження, можна вважати оцінкою. Вибіркова середня є оцінкою генеральної середньої. Розрахована за вибіркою дисперсія або обчислено з неї значення середнього квадратичного відхилення є оцінками відповідних характеристик генеральної сукупності і т.д

Як уже зазначалося, розрахунок статистичних оцінок не гарантує виключення помилок. Суть полягає в тому, що останні не повинні бути систематичними. Наявність їх повинно носити випадковий характер. Розглянемо методологічну сторону цього положення.

Припустимо, оцінка ^ "дає неточне значення оцінки ^ генеральної сукупності з недоліком. У цьому випадку кожне обчислене значення \u003d 1,2,3, ..., п) буде менше дійсне значення величини $.

З цієї причини математичне очікування (середнє значення) випадкової величини в буде менше, ніж в, тобто (М (^ п. І, навпаки, якщо дає оцінку з надлишком, то і математичне очікування

випадкової ^ "стане більше, ніж $.

Звідси випливає, що використання статистичної оцінки, математичне очікування якої не дорівнює оцінюваному параметру, призводить до систематичних похибок, тобто до невипадкових помилок, які викривляють результати вимірювань в одну сторону.

Виникає природне вимога: математичне сподівання оцінки ^ "має дорівнювати оцінюваному параметру. Дотримання цієї вимоги не усуває помилок в цілому, оскільки вибіркові значення оцінки можуть бути більше або менше дійсного значення оцінки генеральної сукупності. Але помилки в один і другий бік від значень ^ зустрічатимуться (відповідно до теорії ймовірностей) з однаковою частотою. Отже, дотримання цієї вимоги, математичне очікування вибіркової оцінки повинна дорівнювати оцінюваному параметру, виключає отримання систематичних (невипадкових) помилок, тобто

М (В) = 6.

Вибір статистичної оцінки, яка дає найкраще наближення оцінюваного параметра, являє собою важливу задачу в теорії оцінювання. Якщо відомо, що розподіл досліджуваної випадкової величини в генеральній сукупності відповідає закону нормального розподілу, то за вибірковими даними необхідно оцінити математичне сподівання і середнє квадратичне відхилення. Пояснюється це тим, що названі дві характеристики повністю визначають основи, на яких побудовано нормальний розподіл. Якщо досліджувана випадкова величина розподілена за законом Пуассона, оцінюють параметр ^, оскільки він визначає цей розподіл.

Математична статистика розрізняє такі методи отримання статистичних оцінок за вибірковими даними: метод моментів, метод максимуму правдоподібності.

При отриманні оцінок методом моментів моменти генеральної сукупності замінюються моментами вибіркової сукупності (замість ймовірностей при вазі використовують частоти).

Щоб статистична оцінка давала "найкраще наближення" до генеральної характеристики, вона повинна мати ряд властивостей. Про них мова піде нижче.

Можливість вибору найкращої оцінки обумовлено знанням їх основних властивостей і умінням класифікувати оцінки за цими властивостями. У математичній літературі "властивості оцінок" іноді називають "вимоги до оцінок" або "критерії оцінок" .В основних властивостей статистичних оцінок відносяться: Незміщеність, ефективність, здатність, достатність.

Якщо прийняти, що вибіркова середня (~) і вибіркова дисперсія

(Ств) є оцінками відповідних генеральних характеристик (^), тобто їх математичним очікуванням, враховуємо, що при великій кількості

одиниць вибірки названі характеристики (~) будуть наближені до їх математичних очікувань. Якщо ж число одиниць вибірки невеликий, ці характеристики можуть значно відрізнятися від відповідних математичних очікувань.

Якщо середнє значення вибіркових характеристик, обраних в якості оцінки, відповідає значенню генеральної характеристики, оцінка називається несмещенной. Доказом того, що математичне очікування вибіркової середньої дорівнює генеральної середньої (м (х) \u003d х), свідчить про те, що величина ~ є несмещенной генеральної

середньої. Інша працювати з виборчої дисперсією (o). її

М (СТ 2) \u003d - о-2. .

математичне очікування п, не дорівнює генеральній

дисперсії. Отже, а ч є зміщеною оцінкою а ". Щоб усунути систематичну помилку та отримати несмещенную оцінку, вибіркову

дисперсію множать на поправку п - 1 (це випливає з освіти

в 2 _ 2 п п -1 "П -1

наведеного вище рівняння: п).

Таким чином, при нечисленної вибірці дисперсія дорівнює:

2 Цх, - ~) 2 п Е (Х і - ~) 2

сг в \u003d Х - \u003d -.

п п - 1 п -1

дріб (п - 1) називають поправкою Бесселя. Математик Бесселя першого встановив, що вибіркова дисперсія є зміщеною оцінкою генеральної дисперсії і застосував зазначену поправку для коригування

оцінок. Для малих вибірок поправка (п - 1) значно відрізняється від 1. Зі збільшенням числа одиниць спостереження вона швидко наближається до 1. При п<> 50 різниця між оцінками зникає, тобто

° ~ "- .З усього вищесказаного випливають такі визначення вимог незсуненості.

незміщеної називають статистичну оцінку, математичне очікування якої при будь-якому обсязі вибірки дорівнює значенню

параметра генеральної сукупності, тобто м (^) \u003d 9; м (х) \u003d х.

Категорію "математичне очікування" вивчають в курсі теорії ймовірностей. Це числова характеристика випадкової величини. Математичне сподівання приблизно дорівнює середньому значенню випадкової величини. Математичним очікування дискретної випадкової величини називають суму творів всіх її можливих значень на їх імовірності. Припустимо, виконано п досліджень, в яких випадкова величина х прийняла ш 1 раз значення ш 2 раз значення Ш і раз значення Х к. При цьому Ш 1 + Ш 2 + Ш 3 + ... + Ш к \u003d п. Тоді сума всіх значень, прийнятих х, дорівнює

х 1 ш 1 + х 2 ш 2 + х 3 ш 3 + ... + х до ш до

Середня арифметична цих значень складе:

Х 1 ш 1 + х 2 ш 2 + х 3 ш 3 + ... + х до ш к - ш 1 ^ Ш 2 ^ ш 3 ^ ^ ш до

п або 1 п 2 п 3 п 1 п.

Оскільки п - відносна частота ^ значення х ^ п - відносна частота значення х 2 і т.д., наведене вище рівняння набуде вигляду:

Х \u003d Х 1 № 1 + Х 2 № 2 + Х 3 № 3 + ... + Х до Н\u003e до

При великій кількості вибіркових спостережень відносна частота приблизно дорівнює ймовірності появи події, тобто

і\u003e 1 \u003d Л; ^ 2 \u003d Щ \u003d ™ к \u003d Р к а тому х 2 х 1 р 1 + х 2 р 2 + Х 3 м 3 + ... + Х КРК. тоді

х ~ м (Х) імовірнісний сенс отриманого результату розрахунків полягає в тому, що математичне очікування приблизно дорівнює (тим точніше, чим більше вибірка) середньому арифметичному спостережуваних значень випадкової величини [М (х -) \u003d ~ 1.

Критерій незсуненості гарантує відсутність систематичних помилок в оцінці параметрів генеральної сукупності.

Зауважимо, що вибіркова оцінка (^) - випадкова величина, значення якої може змінюватися від однієї вибірки до іншої. Міру її варіації (розсіювання) навколо математичного очікування параметра генеральної сукупності # характеризує дисперсія ст2 (^).

нехай в-іВ - - дві незсунені оцінки параметра ^, тобто М (в ") \u003d 6 і М (д,) \u003d в. Дисперсії їх в 1 -) і в г ф -). З двох 0 ці нок В Арто віддати перевагу тій, яка має менше розсіювання навколо оцінюваного параметра. Якщо дисперсія оцінки ^ "менше дисперсії

оцінки Сп, то за оцінку & приймається перша, тобто ^ ".

Несмещенная оцінка ^, що має найменшу дисперсію серед всіх можливих незміщене оцінок параметра ^, обчислених за вибірками однакового обсягу, називається ефективною оцінкою. Це - друга властивість (вимога) статистичних оцінок параметрів генеральної сукупності. Треба, пам'ятати, що ефективна оцінка параметра генеральної сукупності, підпорядкованої певним законом розподілу, не збігається з ефективною оцінкою параметра другого розділу.

При розгляді вибірок великого обсягу статистичні оцінки повинні мати властивість здатності. Оцінка здатна (застосовується також термін "придатна" або "узгоджена") означає, що чим більший об'єм вибірки, тим більша ймовірність того, що помилка оцінки не перевищить скільки завгодно малого позитивного

числа Е. Оцінка 6 параметра ^ називається спроможною, якщо вона підкоряється закону великих чисел, тобто виконується рівність:

/ Шг | г в-в <Е} = 1.

Як бачимо, здатної називають таку статистичну оцінку, яка при п наближається за ймовірністю до оцінюваного параметра. Іншими словами, це значення показника, отримане за вибіркою і наближається (збігається за ймовірністю) внаслідок закону великих чисел при збільшенні обсягу вибірки до свого математичного очікування. Наприклад, якщо дисперсія несмещенной оцінки при п прямує до нуля, то така оцінка виявляється і заможної, оскільки має найменшу можливу дисперсію (при заданому обсязі вибірки).

Здатними оцінками є:

1) частка ознаки в вибіркової сукупності, тобто частость як оцінка частки ознаки у генеральній сукупності;

2) вибіркова середня як оцінка генеральної середньої;

3) вибіркова дисперсія як оцінка генеральної дисперсії;

4) вибіркові коефіцієнти асиметрії і ексцесу як оцінка генеральних коефіцієнтів.

У літературі з математичної статистики чомусь не завжди можна зустріти опис четвертої властивості статистичних оцінок -достатність. оцінка достатню (Або вичерпна) - це оцінка, яка призводить (забезпечує) повноту охоплення всієї вибіркової інформації про невідомому параметр генеральної сукупності. Таким чином, достатня оцінка включає всю інформацію, яка міститься у вибірці з досліджуваної статистичної характеристики генеральної сукупності. Жодна з розглянутих раніше трьох оцінок не може дати необхідних додаткових відомостей про досліджуваний параметр, як достатня статистична оцінка.

Отже, середня арифметична вибіркова ~ є несмещенной оцінкою середньої арифметичної генеральної х. Фактор незсуненості цієї оцінки показує: якщо з генеральної сукупності взяти велику кількість випадкових вибірок, то їх середні *<отличались бы от генеральной средней в большую и меньшую сторону одинаково, то есть, свойство несмещенности хорошей оценки также показывает, что среднее значение бесконечно большого числа выборочных средних равно значению генеральной средней.

У симетричних рядах розподілу медіана є несмещенной оцінкою генеральної середньої. А за умови, що чисельність вибіркової сукупності наближається до генеральної (П ~ * N), медіана може бути в таких рядах і заможної оцінкою генеральної середньоі.Що ж стосується критерію ефективності щодо медіани як оцінки середньої арифметичної генеральної сукупності, можна довести, що в вибірках великого обсягу середньоквадратична помилка медіани (Стме) дорівнює 1,2533 середньоквадратичної помилки вибіркової середньої

). Тобто Стме *. Тому медіана не може бути ефективною оцінкою середньої арифметичної генеральної сукупності, оскільки її середня квадратична помилка більше середньої квадратичної помилки середньої арифметичної вибірки. До того ж середня арифметична задовольняє умовам незсуненості і здібності, а, отже, є найкращою оцінкою.

Можлива і така постановка. Може середня арифметична вибірки бути несмещенной оцінкою медіани в симетричних розподілах сукупності, для якої збігаються значення середньої і медіани? І буде вибіркова середня заможної оцінкою медіани генеральної сукупності? В обох випадках відповідь буде позитивною. Для медіани генеральної сукупності (з симетричним розподілом) середня арифметична вибірки є несмещенной і узгодженої оцінкою.

Пам'ятаючи, що Стме ~ 1,2533ст й, приходимо до висновку: середня арифметична вибірки, а не медіана, більш ефективної оцінкою медіани досліджуваної генеральної сукупності.

Кожна характеристика вибірки не обов'язково є найкращою оцінкою відповідної характеристики генеральної сукупності. Знання властивостей оцінок дозволяє вирішувати питання не тільки вибору оцінок, але і їх поліпшення. Як приклад можна розглянути випадок, коли розрахунки показують, що значення середніх квадратичних відхилень декількох вибірок з однієї генеральної сукупності у всіх випадках виявляються менше середнього квадратичного відхилення генеральної сукупності, причому величина різниці обумовлена \u200b\u200bобсягом вибірки. Помноживши значення середнього квадратичного відхилення вибірки на поправочний коефіцієнт, отримаємо поліпшену оцінку середнього квадратичного відхилення генеральної сукупності. За такої поправочний коефіцієнт використовують поправку Бесселя

п а I п

(П - 1), тобто для усунення зміщення оцінки отримують "п - 1 .Такий числове вираз показує, що середнє відхилення вибірки, використано як оцінка, дає занижене значення параметра генеральної сукупності.

Як відомо, статистичні характеристики вибіркової сукупності є приблизними оцінками невідомих параметрів генеральної сукупності. Сама оцінка може мати форму одного числа або будь-якої певної точки. Оцінка, яка визначається одним числом, називається точковою. Так, вибіркова середня (~) є несмещенной і найбільш ефективної точкової оцінкою генеральної середньої (х), а вибіркова дисперсія) - зміщеною точкової оцінкою генеральної

дисперсії () .Якщо позначити середню помилку вибіркової середньої т <> то точкову оцінку генеральної середньої можна записати у вигляді х ± т °. Це означає, що ~ - оцінка генеральної середньої х з помилкою, яка дорівнює т ". Зрозуміло, що точкові статистичні оцінки х і o не повинні мати систематичної помилки в

ooo ~~ o<в 2

бік завищення або заниження оцінюваних параметрів х і. Як було сказано раніше, оцінки, які задовольняють таку умову, називаються

незміщеними. Що ж являє собою помилка параметра т "? Це середня з безлічі конкретних помилок:

Точкова оцінка параметра генеральної сукупності полягає в тому, що з різних можливих вибіркових оцінок спочатку обирається та, яка має оптимальні властивості, а потім обчислюється значення цієї оцінки. Отримане розрахункове значення останньої розглядається як найкраще наближення до невідомого істинного значення параметра генеральної сукупності. Додаткові розрахунки, пов'язані з визначенням можливої \u200b\u200bпомилки оцінки, не завжди обов'язкові (в залежності від вирішування задач оцінки), але, як правило, здійснюються практично завжди.

Розглянемо приклади визначення точкової оцінки для середньої досліджуваних ознак і для їх частки у генеральній сукупності.

Приклад. Посіви зернових культур району складають 20000 га. При 10% -му вибірковому обстеженні полів отримали такі вибіркові характеристики: середня врожайність - 30 ц з I га, дисперсія врожайності - 4, площа посівів високоврожайних культур - 1200 га.

Що знати про величину показника середньої врожайності зернових культур в районі і яке числове значення показника частки (питомої ваги) високоврожайних культур в загальній площі зернових досліджуваного

регіону? Тобто необхідно дати оцінку названим параметрам (х, г) в генеральній сукупності. Для розрахунку оцінок маємо:

N \u003d 20000; - = 20000 х 0,1 \u003d 2000; ~ \u003d 30;<т = л / 4; № 2000,

Як відомо, виборча середня арифметична є ефективною оцінкою

генеральної середньої арифметичної. Таким чином, можна прийняти, що

найкраща оцінка генерального параметра (^) є 30. Щоб визначити ступінь

точності оцінки необхідно знайти середню (стандартну) її помилку:

иа. п ~ І квітня 2000 ч ППЛ

т \u003d Л - (1--) = - (1--) = 0,04

v п N і2000 2000 ^

Отримана величина помилки свідчить про великий точності оцінки. Значення т тут означає, що при багаторазовому повторенні таких вибірок помилка оцінки параметра склала б в середньому 0,04. Тобто за точкової

оцінці середня врожайність у господарствах району буде х \u003d 30 - 0,04 ц з I га.

Для отримання точкової оцінки показника частки посівів високоврожайних культур зернових в загальній площі зернових за кращу оцінку може бути прийнято показник частки у вибірці ¥ \u003d 0,6. Таким чином, можна сказати, що за результатами спостережень найкращою оцінкою шуканого показника структури буде число 0,6. Уточнюючи обчислення, слід розрахувати середню помилку цієї оцінки: т і (1 _ П) і 0.6 (1 - 0.б) (1 \u003d 0,01

v п N v 2000 2000 а

Як бачимо, середня помилка оцінки генеральної характеристики дорівнює 0,01.

Отриманий результат означає, що якби багаторазово повторити вибірку з об'ємом в 2000 га зернових, середня помилка прийнятої оцінки частки (питомої ваги) високоврожайних культур в площі зернових культур підприємств району була б ± 0,01. В такому випадку Р \u003d 0,6 ± 0,01. У процентному вираженні частка високоврожайних культур в загальній площі зернових району складе в середньому 60 ± I.

Розрахунки показують, що для конкретного випадку найкращою оцінкою шуканого показника структури буде число 0,6, а середня помилка оцінки в тій чи іншій бік буде приблизно дорівнювати 0,01. Як бачимо, оцінка досить точна.

Відомо кілька способів точкової оцінки середнього квадратичного відхилення у випадках, коли вибірка здійснена з генеральної сукупності одиниць з нормальним розподілом і параметр в невідомий. Простий (найбільш легкої в обчисленнях) оцінкою є розмах варіації (і °) вибірки, помножений на поправочний коефіцієнт, узятий за стандартними таблицями і який залежить від обсягу вибірки (для малих вибірок). Параметр середнього квадратичного відхилення в генеральній сукупності можна оцінити за допомогою обчисленої вибіркової дисперсії з урахуванням числа ступенів свободи. Корінь квадратний з цієї дисперсії дає величину, яка буде використана як оцінка генерального середньоквадратичного відхилення).

Використовуючи значення параметра в "обчислюють середню помилку оцінки генеральної середньої (х") способом, розглянутим вище.

Як зазначалося раніше, відповідно до вимоги здатності впевненість в точності тієї чи іншої точкової оцінки підвищується при збільшенні чисельності вибірки. Продемонструвати це теоретичне положення на прикладі точкової оцінки кілька утруднено. Вплив обсягу вибірки на точність оцінки очевидний при обчисленні інтервальних оцінок. Про них мова піде нижче.

У таблиці 39 наведені найбільш часто використовувані точкові оцінки параметрів генеральної сукупності.

Таблиця 39

Основні точкові оцінки _

Обчислені різними способами значення оцінок можуть бути неоднакові за величиною. У зв'язку з цим в практичних розрахунках слід займатися не послідовним обчисленням можливих варіантів, а, спираючись на властивості різних оцінок, вибрати одну з них.

При малій кількості одиниць спостережень точкова оцінка значною мірою випадково, отже, мало надійна. Тому в малих вибірках вона може сильно відрізнятися від оцінюваної характеристики генеральної сукупності. Такий стан призводить до грубих помилок у висновках, які поширюються на генеральну сукупність за результатами вибірки. З цієї причини при вибірках малого обсягу користуються інтервальними оцінками.

На відміну від точкової интервальная оцінка дає діапазон точок, всередині якого повинен знаходитися параметр генеральної сукупності. Крім того, в інтервального оцінкою вказується ймовірність, а, отже, вона має важливе значення в статистичному аналізі.

Інтервального називають оцінку, яка характеризується двома числами - межами інтервалу, який охоплює (покриває) оцінюваний параметр. Така оцінка являє собою деякий інтервал, в якому із заданою ймовірністю знаходиться шуканий параметр. Центром інтервалу приймається вибіркова точкова оцінка.

Таким чином, інтервальні оцінки є подальшим розвитком точкового оцінювання, коли така оцінка при малому обсязі вибірки неефективна.

Завдання інтервального оцінювання в загальному вигляді можна сформулювати так: за даними вибіркового спостереження необхідно побудувати числовий інтервал, щодо якої раніше обраним рівнем імовірності можна стверджувати, що в межах даного інтервалу знаходиться оцінюваний параметр.

Якщо взяти досить велику кількість одиниць вибірки, то, користуючись теоремою Ляпунова, можна довести ймовірність того, що помилка вибірки не перевищить деяку задану величину а, тобто

І ~ "*!" А чи І № "м йА.

Зокрема, ця теорема дає можливість оцінювати похибки наближених рівностей:

- "Р (п і - частота) х "х. п

Якщо ^ * 2Xз ..., х - ~ незалежні випадкові величини і п, то ймовірність їх середньої (х) знаходиться в межах від а до 6 і може бути визначена рівняннями:

р (а(Е) 1 е 2 ці,

- Е (х); _ В - Е (х) ДЕ ° а

Імовірність Р при цьому називають довірчою ймовірністю.

Таким чином, довірчою ймовірністю (надійністю) оцінки генерального параметра по вибіркової оцінки називають ймовірності, з якою здійснюються нерівності:

| ~ Х | <а; | и, ориентир | <д

де а - гранична помилка оцінки, згідно з середньою і частки.

Межі, в яких з цієї заданою вірогідністю може знаходитися генеральна характеристика, називають довірчими інтервалами (довірчими межами). А межі цього інтервалу отримали назву кордонів довіри.

Довірчі (або толерантні) кордону - це кордону, вихід за межі яких даною характеристикою внаслідок випадкових коливань має незначну ймовірність (Л ^ 0,5; р 2<0,01; Л <0,001). Понятие "доверительный интервал" введено Дж.Нейман и К.Пирсоном (1950 г.). Это установленный по выборочным данным интервал, который с заданной вероятностью (доверительной вероятностью) охватывает (покрывает) настоящее, но неизвестно для нас значение параметра. Если уровня доверительной вероятности принять значения 0,95, то эта вероятность свидетельствует о том, что при частых приложениях данного способа (метода) вычислений доверительный интервал примерно в 95% случаев будет покрывать параметр. Доверительный интервал генеральной средней и генеральной доли определяется на основе приведенных выше неравенств, из которых

випливає, що ~ _А - х - ~ + А; № _А - м - № + А.

У математичній статистиці надійність того чи іншого параметра оцінюють за значенням трьох наступних рівнів ймовірності (іноді називають "пороги ймовірності»): Л \u003d 0,95; ^ 2 \u003d 0,99; Р 3 \u003d 0,999. Вірогідність, якими вирішено знехтувати, тобто а 1 = 0.05 ;; а 2 \u003d 0.01; "3 \u003d 0,001 називають рівнями значущості, або рівнями суттєвості. З наведених рівнів надійні висновки забезпечує ймовірність Р 3 \u003d 0,999. Кожному рівню довірчої ймовірності відповідає певне значення нормованого відхилення (див. Табл. 27). Якщо немає в розпорядженні стандартних таблиць значень інтервалу ймовірностей, то цю ймовірність можна обчислити з певним ступенем наближення за формулою:

Р (<) = - = ^ = 1 е "~ й і.

На малюнку 11 заштриховані ті частини загальної площі, обмеженою нормальної кривої і віссю абсцис, які відповідають значенням <= ± 1;<= ± 2; <= и 3 и для которых вероятности равны 0,6287, 0,9545; 0,9973. При точечном оценке рассчитывается, как уже известно, средняя ошибка выборки, при интервальном - предельная.

Залежно від принципів відбору одиниць (повторного або без повторного) структурні формули розрахунку помилок вибірки

розрізняються по величині поправки (N).

Рис. 11. Крива нормального розподілу ймовірностей

У таблиці 40 наведені формули розрахунків помилок оцінок генерального параметра.

Розглянемо конкретний випадок інтервального оцінки параметрів генеральної сукупності за даними вибіркового спостереження.

Приклад. При вибірковому обстеженні господарств району встановлено, що середньодобовий надій корів (х) становить 10 кг. Частка чистопородного худоби в загальній чисельності поголів'я становить 80%. Помилка вибірки з довірчою ймовірністю Р \u003d 0,954 виявилася рівною 0,2 кг; для приватного чистопородного худоби 1%.

Таким чином, межі, в яких може перебувати генеральна середня

продуктивність, будуть 9,8<х <10,2; для генеральной доли скота -79 <Р <81.

Висновок: з імовірністю 0,954 можна стверджувати, що різниця між виборчої середньою продуктивністю корів і генеральної продуктивністю становить 0,2 кг. Межа середньодобового надою - 9,8 і 10,2 кг. Частка (питома вага) чистопородного худоби в підприємствах району знаходиться в межах від 79 до 81%, похибка оцінки не перевищує 1%.

Таблиця 40

Розрахунок точкових і інтервальних помилок вибірки

При організації вибірки важливе значення має визначення необхідної її чисельності (п). Остання залежить від варіації одиниць обстежуваної сукупності. Чим більше колівність, тим більше повинна бути чисельність вибірки. Зворотній зв'язок між чисельністю вибірки і її граничної помилкою. Прагнення отримати меншу помилку вимагає збільшення чисельності вибіркової сукупності.

Необхідна чисельність вибірки визначається на основі формул граничної помилки вибірки (д) із заданим рівнем імовірності (Р). Шляхом математичних перетворень одержують формули розрахунку чисельності вибірки (табл. 41).

Таблиця 41

Розрахунок необхідної чисельності вибірки _

Слід зазначити, що все викладене щодо статистичних оцінок ґрунтується на припущенні, що вибіркова сукупність, параметри якої використовуються при оцінці, отримана з використанням методу (способу) відбору, який забезпечує отримання ймовірностей вибірки.

При цьому, вибираючи довірчу ймовірність оцінки, слід керуватися тим принципом, що вибір її рівня не є математичним завданням, а визначається конкретно розв'язуваної проблемою. На підтвердження сказаного розглянемо приклад.

Приклад. Припустимо, на двох підприємствах ймовірність випуску готової (якісної) продукції дорівнює Р \u003d 0,999, тобто ймовірність отримання шлюбу продукції складе а \u003d 0,001. Чи можна в рамках математичних міркувань, не цікавлячись характером продукції, вирішити питання про те, чи мала велика ймовірність браку а \u003d 0,001. Припустимо, одне підприємство випускає сівалки, а друге - літаки для обробки посівів. Якщо на 1000 сівалок трапиться одна бракована, то з цим можна миритися, тому що переплавлення 0,1% сівалок дешевше, ніж перебудова технологічного процесу. Якщо ж на 1000 літаків зустрінеться один бракований, це, безумовно, призведе до серйозних наслідків при його експлуатації. Отже, в першому випадку ймовірність отримання шлюбу а = 0,001 може прийматися, у другому випадку - ні. З цієї причини вибір довірчої ймовірності в розрахунках взагалі і при обчисленні оцінок, зокрема, слід здійснювати виходячи з конкретних умов завдання.

Залежно від завдань дослідження може виникнути необхідність обчислення однієї або двох довірчих кордонів. Якщо особливості розв'язуваної задачі вимагають установки тільки однієї з меж, верхньої або нижньої, можна переконатися, що ймовірність, з якою встановлюється ця межа буде вище, ніж при вказівці обох кордонів для одного і того ж значення коефіцієнта довіри 1

Нехай довірчі межі встановлені з ймовірністю Р \u003d 0,95, тобто,

в 95% випадків генеральна середня (х) буде не менше нижнього

довірчого інтервалу х ™ - х "м і не більше верхнього довірчого

інтервалу Хверх - \u003d х + В цьому випадку тільки з імовірністю а \u003d 0,05 (або 5%) середня генеральна може вийти за вказані межі. Оскільки розподіл X симетричний, то половина з цього рівня

ймовірності, тобто 2,5% припадатиме на випадок, коли х (х ™ -а друга половина - на випадок коли, х ^ х "^ -. З цього випливає, що ймовірність того, що середня генеральна може бути менше, ніж значення верхньої

довірчої кордону Хвеі "-, дорівнює 0,975 (тобто 0,95 +0,025). Отже, створюються умови, коли при двох довірчих межах ми нехтуємо

значенням х як менше х "" *., так і великими або Хеерх. називаючи

тільки одну довірчу кордон, наприклад, Хверх., ми нехтуємо тільки тими ~, що перевищують цю межу. Для одного і того ж значення коефіцієнта довіри X рівень значущості а тут виявляється в два рази менше.

Якщо розраховуються тільки значення ознаки, які перевищують

(Або навпаки не перевищують) значення шуканого параметра х, довірчий інтервал називається одностороннім. Якщо розглянуті значення обмежуються по обидва боки, довірчий інтервал носить назву двостороннього. Зі сказаного вище випливає, що гіпотези і ряд критеріїв, зокрема критерій Х-Стьюдента, потрібно розглядати як односторонні і двосторонні. Тому при двосторонньої гіпотезі рівень значимості для одного і того ж значення X буде в два рази більше, ніж одностороння. Якщо ми хочемо при односторонній гіпотезі залишити таким же рівень значущості (і рівень довірчої ймовірності), як при двосторонньої гіпотезі, то величину X слід взяти менше. Ця особливість врахована при складанні стандартних таблиць критеріїв Х-Стьюдента (додаток 1).

Відомо, що з практичного боку частіше представляють інтерес не стільки довірчі інтервали можливої \u200b\u200bвеличини генеральної середньої, скільки ті максимальні і мінімальні величини, більше або менше яких із заданою (довірчої) ймовірністю генеральна середня бути не може. У математичній статистиці їх називають гарантованим максимумом і гарантованим мінімумом середньої. Позначивши названі параметри

відповідно через і х ™, можна записати: ХШ ™ \u003d х +; хшіп \u003d х ~.

При обчисленні гарантованих максимальних і мінімальних значень генеральної середньої, як кордони одностороннього довірчого інтервалу в наведених вище формулах, величина 1 береться як критерій односторонній.

Приклад. За 20 ділянках вибірки встановлена \u200b\u200bсередня врожайність цукрових буряків 300 н / га. Дана вибіркова середня характеризує відповідний

параметр генеральної сукупності (х) з помилкою 10 н / га. Згідно вибірковості оцінок генеральна середня врожайність може бути як більше, так і менше вибіркової середньої х \u003d 300. З ймовірністю Р \u003d 0,95 можна стверджувати, що шуканий параметр не буде більше ХШ "\u003d 300 +1,73 х10 \u003d 317,3 ц / га.

Величина 1 взята для числа ступенів свободи ^ \u003d 20-1 при односторонній критичної області та рівні значущості а = 0,05 (додаток 1). Отже, з імовірністю Р \u003d 0,95 гарантований максимально можливий рівень генеральної середньої врожайності оцінюється в 317 н / га, тобто при сприятливих умовах середня врожайність цукрових буряків не перевищує зазначеного розміру.

У деяких галузях знань (наприклад, в природничих науках) теорія оцінки поступається теорії перевірки статистичних гіпотез. В економічній науці методи статистичної оцінки відіграють дуже важливу роль в справі перевірки надійності результатів досліджень, а також в різного роду практичних розрахунках. Перш за все це стосується використання точкової оцінки досліджуваних статистичних сукупностей. Вибір можна кращої оцінки - основна проблема точкової оцінки. Можливість такого вибору обумовлена \u200b\u200bзнанням основних властивостей (вимог) статистичних оцінок.

) Завдань математичної статистики.

Припустимо, що є параметричне сімейство розподілів ймовірностей (для простоти будемо розглядати розподіл випадкових величин і випадок одного параметра). Тут - числовий параметр, значення якого невідомо. Потрібно оцінити його за наявною вибірці значень, породженої даними розподілом.

Розрізняють два основних типи оцінок: точкові оцінки і довірчі інтервали.

точкове оцінювання

Точкове оцінювання - це вид статистичного оцінювання, при якому значення невідомого параметра наближається окремим числом. Тобто необхідно вказати функцію від вибірки (статистику)

,

значення якої буде розглядатися в якості наближення до невідомого істинного значення.

До загальних методів побудови точкових оцінок параметрів відносяться: метод максимальної правдоподібності, метод моментів, метод квантилів.

Нижче наводяться деякі властивості, якими можуть володіти або з мати точкові оцінки.

спроможність

Одне з найбільш очевидних вимог до точкову оцінку полягає в тому, щоб можна було очікувати досить хорошого наближення до істинного значення параметра при досить великих значеннях обсягу вибірки. Це означає, що оцінка повинна сходитися до істинного значення при. Це властивість оцінки і називається спроможністю. Оскільки мова йде про випадкових величинах, для яких є різні види збіжності, то і ця властивість може бути точно сформульовано по-різному:

Коли вживають просто термін спроможність, То зазвичай мається на увазі слабка спроможність, тобто збіжність за ймовірністю.

Умова спроможності є практично обов'язковим для всіх використовуваних на практиці оцінок. Неспроможні оцінки використовуються вкрай рідко.

Незміщеність і асимптотична Незміщеність

Оцінка параметра називається несмещенной, Якщо її математичне сподівання дорівнює істинного значення оцінюваного параметра:

.

Більш слабким умовою є асимптотична Незміщеність, Яка означає, що математичне очікування оцінки сходиться до істинного значення параметра з ростом обсягу вибірки:

.

Незміщеність є рекомендованим властивістю оцінок. Однак не слід занадто переоцінювати його значення. Найчастіше незсунені оцінки параметрів існують і тоді намагаються розглядати тільки їх. Однак можуть бути такі статистичні завдання, в яких незміщене оцінок не існує. Найбільш відомим прикладом є наступний: розглянемо розподіл Пуассона з параметром і поставимо задачу оцінки параметра. Можна довести, що для цього завдання не існує несмещенной оцінки.

Порівняння оцінок і ефективність

Для порівняння між собою різних оцінок одного і того ж параметра застосовують наступний метод: вибирають деяку функцію ризику, Яка вимірює відхилення оцінки від істинного значення параметра, і кращої вважають ту, для якої ця функція приймає менше значення.

Найчастіше в якості опції ризику розглядають математичне сподівання квадрата відхилення оцінки від істинного значення

Для незміщене оцінок це є просто дисперсія.

Існує нижня межа на дану функцію ризику, звана нерівність Крамера-Рао.

(Незміщені) оцінки, для яких досягається ця нижня межа (тобто мають мінімально можливу дисперсію), називаються ефективними. Однак існування ефективної оцінки є досить сильне вимога на завдання, яке має місце далеко не завжди.

Більш слабким є умова асимптотической ефективності, Яке означає, що відношення дисперсії несмещенной оцінки до нижньої межі Крамера-Рао прагне до одиниці при.

Зауважимо, що при досить широких припущеннях щодо досліджуваного розподілу, метод максимальної правдоподібності дає асимптотично ефективну оцінку параметра, а якщо є ефективна оцінка - тоді він дає ефективну оцінку.

достатні статистики

Статистика назвается достатньою для параметра, якщо умовний розподіл вибірки за умови того, що, не залежить від параметра для всіх.

Важливість поняття достатньої статистики обумовлюється наступним твердженням. Якщо - достатня статистика, а - несмещенная оцінка параметра, тоді умовне математичне очікування є також несмещенной оцінкою параметра, причому її дисперсія менше або дорівнює дисперсії вихідної оцінки.

Нагадаємо, що умовне математичне очікування є випадкова величина, яка є функцією від. Таким чином, в класі незміщене оцінок досить розглядати лише такі, які є функціями від достатньої статистики (за умови, що така існує для даного завдання).

(Несмещенная) ефективна оцінка параметра завжди є достатньою статистикою.

Можна сказати, що достатня статистика містить в собі всю інформацію про передбачений параметрі, яка міститься у вибірці.

Статистичні оцінки параметрів генеральної сукупності. Статистичні гіпотези

Лекція 16

Нехай потрібно вивчити кількісний ознака генеральної сукупності. Припустимо, що з теоретичних міркувань вдалося встановити, яке саме розподіл має ознака. Звідси виникає завдання оцінки параметрів, якими визначається цей розподіл. Наприклад, якщо відомо, що досліджуваний ознака розподілений в генеральної сукупності за нормальним законом, то необхідно оцінити (приблизно знайти) математичне очікування і середньоквадратичне відхилення, так як ці два параметри повністю визначають нормальний розподіл. Якщо ж є підстави вважати, що ознака має розподіл Пуассона, то необхідно оцінити параметр, яким цей розподіл визначається.

Зазвичай в розподілі дослідник має лише дані вибірки, наприклад, значення кількісної ознаки, отримані в результаті спостережень (тут і далі спостереження передбачаються незалежними). Через ці дані і висловлюють оцінюваний параметр.

Розглядаючи як значення незалежних випадкових величин , Можна сказати, що знайти статистичну оцінку невідомого параметра теоретичного розподілу означає знайти функцію від спостережуваних випадкових величин, яка і дає наближене значення оцінюваного параметра. Наприклад, як буде показано далі, для оцінки математичного очікування нормального розподілу служить функція (середнє арифметичне спостережуваних значень ознаки):

.

Отже, статистичною оцінкою невідомого параметра теоретичного розподілу називають функцію від спостережуваних випадкових величин. Статистична оцінка невідомого параметра генеральної сукупності, записана одним числом, називається точкової. Розглянемо наступні точкові оцінки: зміщені і несмещённие, ефективні і заможні.

Для того, щоб статистичні оцінки давали «хороші» наближення оцінюваних параметрів, вони повинні задовольняти певним вимогам. Зазначимо ці вимоги.

Нехай є статистична оцінка невідомого параметра теоретичного розподілу. Припустимо, що при вибірці обсягу знайдена оцінка. Повторимо досвід, тобто ізвлечём з генеральної сукупності іншу вибірку того ж обсягу і за її даними знайдемо оцінку і т.д. Повторюючи досвід багаторазово, отримаємо числа , Які, взагалі кажучи, будуть відрізнятися між собою. Таким чином, оцінку можна розглядати як випадкову величину, а числа - як можливі її значення.

Ясно, що якщо оцінка дає наближене значення з надлишком, то кожне знайдене за даними вибірок число буде більше істинного значення. Отже, що в цьому випадку і математичне (середнє значення) випадкової величини буде більше, ніж, тобто. Очевидно, що якщо дає наближене значення з недоліком, то.


Тому, використання статистичної оцінки, математичне очікування якої не дорівнює оцінюваному параметру, призводить до систематичних (одного знака) помилок. З цієї причини природно вимагати, щоб математичне сподівання оцінки було дорівнює оцінюваному параметру. Хоча дотримання цієї вимоги, в загальному, не усуне помилок (одні значення більше, а інші менше ніж), помилки різних знаків будуть зустрічатися однакова часто. Однак дотримання вимоги гарантує неможливість отримання систематичних помилок, тобто усуває систематичні помилки.

Несмещённой називають статистичну оцінку (помилку), математичне сподівання якої дорівнює оцінюваному параметру при будь-якому обсязі вибірки, тобто.

зміщеною називають статистичну оцінку, математичне очікування якої не дорівнює оцінюваному параметру при будь-якому обсязі вибірки, тобто.

Однак було б помилкою вважати, що Незміщена Оцінка завжди дає хороше наближення оцінюваного параметра. Дійсно, можливі значення можуть бути сильно розпорошені навколо свого середнього значення, тобто дисперсія може бути значною. В цьому випадку, знайдена за даними однієї вибірки оцінка, наприклад, може виявитися вельми віддаленої від середнього значення, а значить, і від самого оцінюваного параметра. Таким чином, прийнявши в якості наближеного значення, ми допустимо велику помилку. Якщо ж вимагати, щоб дисперсія була малою, то можливість допустити велику помилку буде виключена. З цієї причини до статистичної оцінки ставиться вимога ефективності.

ефективною називають статистичну оцінку, яка (при заданому обсязі вибірки) має найменшу можливу дисперсію.

заможної називають статистичну оцінку, яка при прагне за ймовірністю до оцінюваного параметру, тобто, справедливо рівність:

.

Наприклад, якщо дисперсія несмещённой оцінки при прагне до нуля, то така оцінка виявляється також заможної.

Розглянемо питання про те, які вибіркові характеристики найкраще в сенсі несмещённості, ефективності та спроможності оцінюють генеральну середню і дисперсію.

Нехай вивчається дискретна генеральна сукупність щодо деякого кількісної ознаки.

Генеральною середньої називається середнє арифметичне значень ознаки генеральної сукупності. Вона обчислюється за формулою:

§ - якщо всі значення ознаки генеральної сукупності обсягу різні;

§ - якщо значення ознаки генеральної сукупності мають відповідно частоти, причому. Тобто генеральна середня є середня зважена значень ознаки з вагами, рівними відповідним частотам.

зауваження: Нехай генеральна сукупність обсягу містить об'єкти з різними значеннями ознаки. Уявімо собі, що з цієї сукупності навмання витягується один об'єкт. Імовірність того, що буде витягнуто об'єкт зі значенням ознаки, наприклад, очевидно, дорівнює. З цієї ж ймовірністю може бути вилучено і будь-який інший об'єкт. Таким чином, величину ознаки можна розглядати як випадкову величину, можливі значення якої мають однакові ймовірності, рівні. Неважко, в цьому випадку, знайти математичне очікування:

Отже, якщо розглядати обстежуваний ознака генеральної сукупності як випадкову величину, то математичне сподівання ознаки дорівнює генеральної середньої цієї ознаки:. Цей висновок ми отримали, вважаючи, що всі об'єкти генеральної сукупності мають різні значення ознаки. Такий же результат буде отримано, якщо допустити, що генеральна сукупність містить по кілька об'єктів з однаковим значенням ознаки.

Узагальнюючи отриманий результат на генеральну сукупність з безперервним розподілом ознаки, визначимо генеральну середню як математичне очікування ознаки: .

Нехай для вивчення генеральної сукупності щодо кількісної ознаки витягнута вибірка обсягу.

вибіркової середньої називають середнє арифметичне значень ознаки вибіркової сукупності. Вона обчислюється за формулою:

§ - якщо всі значення ознаки вибіркової сукупності обсягу різні;

§ - якщо значення ознаки вибіркової сукупності мають відповідно частоти, причому. Тобто вибіркова середня є середня зважена значень ознаки з вагами, рівними відповідним частотам.

зауваження: Вибіркова середня, знайдена за даними однієї вибірки є, очевидно, певне число. Якщо ж витягувати інші вибірки того ж обсягу з тієї ж генеральної сукупності, то вибіркова середня буде змінюватися від вибірки до вибірки. Таким чином, вибіркову середню можна розглядати як випадкову величину, а отже, можна говорити про розподіли (теоретичному і емпіричному) вибіркової середньої і про числові характеристики цього розподілу, зокрема, про математичне сподівання і дисперсії вибіркового розподілу.

Далі, якщо генеральна середня невідома і потрібно оцінити її за даними вибірки, то в якості оцінки генеральної середньої приймають вибіркову середню, яка є несмещённой і заможної оцінкою (пропонуємо це твердження довести самостійно). Зі сказаного випливає, що якщо за кількома вибірках досить великого обсягу з однієї і тієї ж генеральної сукупності будуть знайдені вибіркові середні, то вони будуть приблизно рівні між собою. У цьому полягає властивість стійкості вибіркових середніх.

Відзначимо, що якщо дисперсії двох сукупностей однакові, то близькість вибіркових середніх до генеральних не залежить від ставлення обсягу вибірки до обсягу генеральної сукупності. Вона залежить від обсягу вибірки: чим обсяг вибірки більше, тим менше вибіркова середня відрізняється від генеральної. Наприклад, якщо з однієї сукупності відібраний 1% об'єктів, а з іншого сукупності відібрано 4% об'єктів, причому обсяг першої вибірки виявився більшим, ніж другий, то перша вибіркова середня буде менше відрізнятися від відповідної генеральної середньої, ніж друга.