การประมาณลักษณะทางสถิติของข้อมูลสุ่ม การวิเคราะห์ความคล้ายคลึงในการกระจาย ประมาณการทางสถิติของจุด

ให้จำเป็นต้องศึกษาเครื่องหมายเชิงปริมาณของประชากรทั่วไป สมมติว่า จากการพิจารณาทางทฤษฎี เป็นไปได้ที่จะกำหนดว่าการแจกแจงแบบใดมีลักษณะเฉพาะ ปัญหาเกิดจากการประมาณค่าพารามิเตอร์ที่กำหนดการกระจายนี้ ตัวอย่างเช่น หากทราบล่วงหน้าว่าลักษณะที่อยู่ระหว่างการศึกษามีการกระจายในประชากรทั่วไปตามกฎปกติ จำเป็นต้องประมาณการคาดหมายทางคณิตศาสตร์และค่าเบี่ยงเบนมาตรฐาน เนื่องจากพารามิเตอร์ทั้งสองนี้กำหนดการกระจายแบบปกติอย่างสมบูรณ์ หากมีเหตุผลที่จะเชื่อได้ว่าคุณลักษณะนี้มีการกระจายแบบปัวซอง ก็จำเป็นต้องประมาณค่าพารามิเตอร์ที่ใช้พิจารณาการแจกแจงนี้ โดยปกติจะมีเฉพาะข้อมูลตัวอย่างที่ได้รับจากการสังเกต: , , ... , . ผ่านข้อมูลเหล่านี้และแสดงค่าพารามิเตอร์โดยประมาณ เมื่อพิจารณา , , ... , เป็นค่าของตัวแปรสุ่มอิสระ , , ... , เราสามารถพูดได้ว่าการหาค่าประมาณทางสถิติของพารามิเตอร์ที่ไม่รู้จักของการแจกแจงทางทฤษฎีหมายถึงการค้นหาฟังก์ชันของตัวแปรสุ่มที่สังเกตได้ ซึ่งให้ค่าประมาณของพารามิเตอร์โดยประมาณ

ดังนั้น, การประเมินทางสถิติพารามิเตอร์ที่ไม่รู้จักของการแจกแจงทางทฤษฎีเรียกว่าฟังก์ชันของตัวแปรสุ่มที่สังเกตได้ การประเมินทางสถิติของพารามิเตอร์ที่ไม่รู้จักของประชากรทั่วไปด้วยจำนวนหนึ่งเรียกว่า จุด. การประมาณการจุดต่อไปนี้ได้รับการพิจารณาด้านล่าง: ลำเอียงและไม่ลำเอียง มีประสิทธิภาพและสม่ำเสมอ

เพื่อให้การประมาณค่าทางสถิติสามารถประมาณค่าพารามิเตอร์โดยประมาณได้ดี พารามิเตอร์เหล่านี้ต้องเป็นไปตามข้อกำหนดบางประการ มาระบุข้อกำหนดเหล่านี้กัน ให้มีค่าประมาณทางสถิติของพารามิเตอร์ที่ไม่รู้จักของการแจกแจงทางทฤษฎี สมมติว่าพบการประมาณการตามตัวอย่างปริมาณ ลองทำการทดลองซ้ำกัน กล่าวคือ เราจะดึงตัวอย่างอื่นที่มีขนาดเท่ากันจากประชากรทั่วไป และใช้ข้อมูลของมัน เราจะหาค่าประมาณ ฯลฯ เราจะได้ตัวเลข , , ... , ซึ่งจะแตกต่างจาก กันและกัน. ดังนั้น การประมาณการสามารถถือเป็นตัวแปรสุ่ม และตัวเลข , , ... , - เป็นค่าที่เป็นไปได้

หากค่าประมาณให้ค่าโดยประมาณที่เกินมา ให้หาค่าจากข้อมูลตัวอย่าง ( ) จะมากกว่ามูลค่าที่แท้จริง ดังนั้น ค่าคาดหมายทางคณิตศาสตร์ (ค่ากลาง) ของตัวแปรสุ่มจะมากกว่า กล่าวคือ หากให้ค่าโดยประมาณโดยมีข้อเสีย แสดงว่า

ดังนั้น การใช้ค่าประมาณทางสถิติ ซึ่งการคาดหมายทางคณิตศาสตร์ซึ่งไม่เท่ากับค่าพารามิเตอร์ที่ประมาณไว้ จะทำให้เกิดข้อผิดพลาดอย่างเป็นระบบ ดังนั้นจึงจำเป็นต้องกำหนดให้การคาดหมายทางคณิตศาสตร์ของการประมาณค่าเท่ากับค่าพารามิเตอร์ที่ประมาณการไว้ การปฏิบัติตามข้อกำหนดช่วยขจัดข้อผิดพลาดอย่างเป็นระบบ

ไม่ลำเอียงเรียกว่าการประมาณทางสถิติ การคาดหมายทางคณิตศาสตร์ซึ่งเท่ากับค่าพารามิเตอร์ที่ประมาณการไว้ กล่าวคือ

พลัดถิ่นเรียกว่าการประมาณทางสถิติ การคาดหมายทางคณิตศาสตร์ซึ่งไม่เท่ากับค่าพารามิเตอร์ที่ประมาณการไว้

อย่างไรก็ตาม เป็นความผิดพลาดที่จะถือว่าการประมาณที่ไม่เอนเอียงจะให้ค่าประมาณที่ดีของพารามิเตอร์โดยประมาณเสมอ อันที่จริง ค่าที่เป็นไปได้อาจกระจัดกระจายอย่างมากรอบๆ ค่าเฉลี่ย กล่าวคือ การกระจายของค่าอาจมีนัยสำคัญ ในกรณีนี้ การประมาณการที่พบจากข้อมูลของตัวอย่างหนึ่งตัวอย่าง อาจกลายเป็นว่าห่างไกลจากค่าเฉลี่ยของมันมาก และด้วยเหตุนี้เองจากพารามิเตอร์ที่ประมาณการเอง หากใช้ค่าโดยประมาณ เราจะทำผิดพลาดครั้งใหญ่ หากคุณต้องการให้ค่ากระจายน้อย ความเป็นไปได้ของการเกิดข้อผิดพลาดขนาดใหญ่จะถูกยกเว้น ดังนั้นข้อกำหนดด้านประสิทธิภาพจึงถูกกำหนดในการประเมินทางสถิติ

มีประสิทธิภาพเรียกว่าค่าประมาณทางสถิติที่ (สำหรับขนาดตัวอย่างที่กำหนด ) มีความแปรปรวนน้อยที่สุดที่เป็นไปได้ เมื่อพิจารณาตัวอย่างที่มีปริมาณมาก การประมาณการทางสถิติจะขึ้นอยู่กับข้อกำหนดของความสม่ำเสมอ

ร่ำรวยเรียกว่าการประมาณทางสถิติซึ่งมีแนวโน้มว่าจะเป็นค่าพารามิเตอร์ที่ประมาณไว้ ตัวอย่างเช่น หากความแปรปรวนของตัวประมาณที่ไม่เอนเอียงที่มีแนวโน้มเป็นศูนย์ ดังนั้นตัวประมาณดังกล่าวกลับกลายเป็นว่าสอดคล้องกัน

ให้เราพิจารณาคำถามที่ว่าคุณลักษณะของตัวอย่างใดที่ประเมินค่าเฉลี่ยและความแปรปรวนทั่วไปได้ดีที่สุดในแง่ของความไม่เอนเอียง ประสิทธิภาพ และความสม่ำเสมอ

ให้ศึกษาประชากรทั่วไปที่ไม่ต่อเนื่องโดยคำนึงถึงคุณลักษณะเชิงปริมาณ มัธยมศึกษาทั่วไปเรียกว่าค่าเฉลี่ยเลขคณิตของค่าคุณลักษณะของประชากรทั่วไป สามารถคำนวณโดยใช้สูตรหรือ โดยที่ค่าของเครื่องหมายของประชากรทั่วไปของปริมาตร คือความถี่ที่สอดคล้องกัน และ .

ให้จากประชากรทั่วไปซึ่งเป็นผลมาจากการสังเกตอิสระเกี่ยวกับลักษณะเชิงปริมาณตัวอย่างปริมาตรพร้อมค่าของลักษณะจะถูกดึงออกมา . ค่าเฉลี่ยตัวอย่างเรียกว่า ค่าเฉลี่ยเลขคณิตของกลุ่มตัวอย่าง สามารถคำนวณโดยใช้สูตรหรือ โดยที่ค่าของแอตทริบิวต์ในชุดตัวอย่างของปริมาณคือความถี่ที่สอดคล้องกัน และ .

หากไม่ทราบค่าเฉลี่ยทั่วไปและจำเป็นต้องประมาณค่าจากข้อมูลตัวอย่าง ค่าเฉลี่ยตัวอย่างซึ่งเป็นค่าประมาณที่ไม่เอนเอียงและสม่ำเสมอจะถูกนำมาเป็นค่าประมาณของค่าเฉลี่ยทั่วไป ตามมาด้วยว่าถ้าตัวอย่างหลายตัวอย่างที่มีปริมาตรมากเพียงพอจากประชากรทั่วไปกลุ่มเดียวกันถูกใช้เพื่อค้นหาค่าเฉลี่ยตัวอย่าง พวกมันก็จะมีค่าเท่ากันโดยประมาณ นี่คือคุณสมบัติ ความคงตัวของค่าเฉลี่ยตัวอย่าง.

โปรดทราบว่าหากความแปรปรวนของประชากรสองกลุ่มเท่ากัน ความใกล้ชิดของกลุ่มตัวอย่างจะหมายถึงกลุ่มตัวอย่างทั่วไปไม่ได้ขึ้นอยู่กับอัตราส่วนของขนาดกลุ่มตัวอย่างต่อขนาดของประชากรทั่วไป ขึ้นอยู่กับขนาดกลุ่มตัวอย่าง ยิ่งขนาดกลุ่มตัวอย่างใหญ่ ค่าเฉลี่ยตัวอย่างจะแตกต่างจากขนาดตัวอย่างทั่วไปน้อยลง

เพื่อกำหนดลักษณะการกระจายของค่าของคุณลักษณะเชิงปริมาณของประชากรทั่วไปรอบ ๆ ค่าเฉลี่ย จะมีการแนะนำลักษณะสรุป - ความแปรปรวนทั่วไป ความแปรปรวนทั่วไปเรียกว่าค่าเฉลี่ยเลขคณิตของค่าเบี่ยงเบนกำลังสองของค่าสัญลักษณ์ของประชากรทั่วไปจากค่าเฉลี่ยซึ่งคำนวณโดยสูตร: , หรือ .

เพื่อกำหนดลักษณะการกระจายของค่าที่สังเกตได้ของแอตทริบิวต์เชิงปริมาณตัวอย่างรอบ ๆ ค่าเฉลี่ย จะมีการแนะนำคุณลักษณะสรุป - ความแปรปรวนตัวอย่าง ความแปรปรวนตัวอย่างเรียกว่าค่าเฉลี่ยเลขคณิตของค่าเบี่ยงเบนกำลังสองของค่าที่สังเกตได้ของคุณลักษณะจากค่าเฉลี่ยซึ่งคำนวณโดยสูตร: , หรือ .

นอกเหนือจากการกระจายเพื่อกำหนดลักษณะการกระจายของค่าของคุณลักษณะของประชากรทั่วไป (ตัวอย่าง) รอบค่าเฉลี่ยแล้วพวกเขาใช้ลักษณะสรุป - ค่าเบี่ยงเบนมาตรฐาน ส่วนเบี่ยงเบนมาตรฐานทั่วไปเรียกว่า รากที่สองจากความแปรปรวนทั่วไป: . ตัวอย่างค่าเบี่ยงเบนมาตรฐานเรียกรากที่สองของความแปรปรวนตัวอย่าง:

ให้ตัวอย่างปริมาตรถูกดึงออกมาจากประชากรทั่วไปอันเป็นผลมาจากการสังเกตอิสระในลักษณะเชิงปริมาณ จำเป็นต้องประมาณค่าความแปรปรวนทั่วไปที่ไม่ทราบค่าจากข้อมูลตัวอย่าง หากเรานำความแปรปรวนตัวอย่างมาเป็นการประมาณค่าความแปรปรวนทั่วไป การประมาณนี้จะทำให้เกิดข้อผิดพลาดอย่างเป็นระบบ โดยให้ค่าความแปรปรวนทั่วไปที่ประเมินต่ำไป สิ่งนี้อธิบายได้จากข้อเท็จจริงที่ว่าความแปรปรวนตัวอย่างเป็นการประมาณแบบเอนเอียง กล่าวอีกนัยหนึ่ง ค่าเฉลี่ยของความแปรปรวนตัวอย่างไม่เท่ากับความแปรปรวนทั่วไปโดยประมาณ แต่เท่ากับ .

ง่ายต่อการแก้ไขความแปรปรวนตัวอย่างเพื่อให้ค่าเฉลี่ยเท่ากับความแปรปรวนทั่วไป การทำเช่นนี้ก็เพียงพอที่จะคูณด้วยเศษส่วน เป็นผลให้เราได้รับความแปรปรวนที่ถูกต้องซึ่งมักจะแสดงด้วย ความแปรปรวนที่แก้ไขแล้วจะเป็นค่าประมาณที่ไม่เอนเอียงของความแปรปรวนทั่วไป: .

2. ประมาณการช่วงเวลา.

นอกจากการประมาณจุดแล้ว ทฤษฎีทางสถิติของการประมาณค่าพารามิเตอร์ ยังเกี่ยวข้องกับคำถามของการประมาณช่วงเวลา ปัญหาของการประมาณค่าช่วงเวลาสามารถกำหนดได้ดังนี้: จากข้อมูลตัวอย่าง สร้างช่วงตัวเลข สัมพันธ์กับค่าความน่าจะเป็นที่เลือกไว้ล่วงหน้า เราสามารถพูดได้ว่าพารามิเตอร์โดยประมาณอยู่ภายในช่วงเวลานี้ การประมาณค่าช่วงเวลาจำเป็นอย่างยิ่งสำหรับการสังเกตจำนวนเล็กน้อยเมื่อ ประมาณการจุดสุ่มมากจึงไม่น่าเชื่อถือมาก

ช่วงความเชื่อมั่นสำหรับพารามิเตอร์ ช่วงเวลาดังกล่าวจะเรียกว่า ซึ่งเป็นไปได้ โดยมีความเป็นไปได้ที่เลือกไว้ล่วงหน้าใกล้หนึ่ง เพื่อยืนยันว่ามีค่าที่ไม่รู้จักของพารามิเตอร์ กล่าวคือ . ยิ่งตัวเลขสำหรับความน่าจะเป็นที่เลือกน้อยเท่าไร ค่าประมาณของพารามิเตอร์ที่ไม่รู้จักก็ยิ่งแม่นยำมากขึ้นเท่านั้น และในทางกลับกัน ถ้าตัวเลขนี้มาก การประมาณที่ทำโดยใช้ช่วงเวลานี้จะมีประโยชน์เพียงเล็กน้อยสำหรับการปฏิบัติ เนื่องจากจุดสิ้นสุดของช่วงความเชื่อมั่นขึ้นอยู่กับองค์ประกอบของกลุ่มตัวอย่าง ค่าของและสามารถเปลี่ยนจากกลุ่มตัวอย่างเป็นกลุ่มตัวอย่างได้ ความน่าจะเป็นมักจะเรียกว่าความน่าจะเป็นของความมั่นใจ (ความน่าเชื่อถือ) โดยปกติ ความน่าเชื่อถือของการประมาณการจะถูกกำหนดไว้ล่วงหน้า และตัวเลขที่ใกล้เคียงกับค่าหนึ่งจะถูกนำมาเป็นค่า การเลือกความน่าจะเป็นของความมั่นใจไม่ใช่ปัญหาทางคณิตศาสตร์ แต่ถูกกำหนดโดยปัญหาเฉพาะที่กำลังแก้ไข ส่วนใหญ่แล้ว ความน่าเชื่อถือจะถูกตั้งค่าเป็น ; ; .

เราให้ช่วงความเชื่อมั่นโดยไม่มีการอนุมานสำหรับค่าเฉลี่ยทั่วไปสำหรับ ค่าที่รู้จักส่วนเบี่ยงเบนมาตรฐาน โดยมีเงื่อนไขว่าปกติตัวแปรสุ่ม (แอตทริบิวต์เชิงปริมาณ) จะถูกกระจายตามปกติ:

โดยที่จำนวนที่กำหนดไว้ใกล้กับหนึ่งและค่าของฟังก์ชันจะได้รับในภาคผนวก 2

ความหมายของความสัมพันธ์มีดังนี้ สามารถระบุได้อย่างน่าเชื่อถือว่า ช่วงความเชื่อมั่น ( ) ครอบคลุมพารามิเตอร์ที่ไม่รู้จัก ความถูกต้องของการประมาณคือ ตัวเลขถูกกำหนดจากความเท่าเทียมกัน หรือ ตามตาราง (ภาคผนวก 2) พบอาร์กิวเมนต์ที่สอดคล้องกับค่าของฟังก์ชัน Laplace เท่ากับ

ตัวอย่างที่ 1. ตัวแปรสุ่มมีการแจกแจงแบบปกติโดยมีค่าเบี่ยงเบนมาตรฐานที่ทราบ หาช่วงความเชื่อมั่นสำหรับการประมาณค่าค่าเฉลี่ยทั่วไปที่ไม่ทราบค่าจากค่าเฉลี่ยตัวอย่าง หากกำหนดขนาดตัวอย่างและความเชื่อถือได้ของการประมาณค่าไว้

วิธีการแก้. มาหากัน จากอัตราส่วนเราจะได้ว่า ตามตาราง (ภาคผนวก 2) เราพบ ค้นหาความถูกต้องของการประมาณการ . ช่วงความเชื่อมั่นจะเป็น: . ตัวอย่างเช่น ถ้า ช่วงความมั่นใจมีขีดจำกัดความเชื่อมั่นดังต่อไปนี้: ; . ดังนั้นค่าของพารามิเตอร์ที่ไม่รู้จัก , สอดคล้องกับข้อมูลตัวอย่าง, ตอบสนองความไม่เท่าเทียมกัน .

ช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยทั่วไปของการแจกแจงแบบปกติของจุดสนใจที่มีค่าเบี่ยงเบนมาตรฐานที่ไม่ทราบค่ากำหนดโดยนิพจน์ .

จากนี้ไปสามารถระบุได้อย่างน่าเชื่อถือว่าช่วงความเชื่อมั่น ครอบคลุมพารามิเตอร์ที่ไม่รู้จัก

มีตารางสำเร็จรูป (ภาคผนวก 4) ซึ่งใช้สำหรับให้และค้นหาความน่าจะเป็น และในทางกลับกัน สำหรับให้และสามารถพบได้

ตัวอย่าง 2. เครื่องหมายเชิงปริมาณของประชากรทั่วไปมีการกระจายตามปกติ จากตัวอย่างปริมาตร จะพบค่าเฉลี่ยตัวอย่างและค่าเบี่ยงเบนมาตรฐานที่แก้ไขแล้ว ประมาณค่าค่าเฉลี่ยประชากรที่ไม่ทราบค่าโดยใช้ช่วงความเชื่อมั่นที่มีความน่าเชื่อถือ

วิธีการแก้. มาหากัน ใช้ตาราง (ภาคผนวก 4) สำหรับและเราพบ: มาหาขีดจำกัดของความมั่นใจกันเถอะ:

ดังนั้น ด้วยความน่าเชื่อถือ พารามิเตอร์ที่ไม่รู้จักจึงอยู่ในช่วงความเชื่อมั่น

3. แนวคิดของสมมติฐานทางสถิติ คำชี้แจงทั่วไปของปัญหาการทดสอบสมมติฐาน.

การทดสอบสมมติฐานทางสถิติมีความสัมพันธ์อย่างใกล้ชิดกับทฤษฎีการประมาณค่าพารามิเตอร์ ในวิทยาศาสตร์ธรรมชาติ เทคโนโลยี และเศรษฐศาสตร์ บ่อยครั้งเพื่อชี้แจงข้อเท็จจริงแบบสุ่มอย่างใดอย่างหนึ่งหรืออย่างอื่น พวกเขาใช้วิธีการระบุสมมติฐานที่สามารถทดสอบได้ทางสถิติ นั่นคือ บนพื้นฐานของผลการสังเกตในตัวอย่างที่สุ่ม ภายใต้ สมมติฐานทางสถิติสมมติฐานดังกล่าวมีขึ้นเพื่ออ้างถึงประเภทหรือพารามิเตอร์ส่วนบุคคลของการกระจายของตัวแปรสุ่ม ตัวอย่างเช่น สมมติฐานทางสถิติคือการกระจายผลิตภาพแรงงานของคนงานที่ทำงานเดียวกันในสภาพเดียวกันมีกฎหมายว่าด้วยการกระจายตามปกติ ทางสถิติจะเป็นสมมติฐานด้วยว่าขนาดเฉลี่ยของชิ้นส่วนที่ผลิตด้วยเครื่องจักรแบบขนานประเภทเดียวกันนั้นไม่แตกต่างกัน

สมมติฐานทางสถิติเรียกว่า เรียบง่ายถ้ามันกำหนดการกระจายของตัวแปรสุ่มไม่ซ้ำกัน มิฉะนั้นจะเรียกว่าสมมติฐาน ซับซ้อน.ตัวอย่างเช่น สมมติฐานง่าย ๆ คือสมมติฐานที่ว่าตัวแปรสุ่มถูกแจกจ่ายตามกฎปกติโดยมีค่าคาดหมายทางคณิตศาสตร์เท่ากับศูนย์และความแปรปรวนเท่ากับหนึ่ง หากมีการตั้งสมมติฐานว่าตัวแปรสุ่มมีการแจกแจงแบบปกติโดยมีค่าความแปรปรวนเท่ากับหนึ่ง และความคาดหวังทางคณิตศาสตร์เป็นตัวเลขจากเซกเมนต์ นี่ก็เป็นสมมติฐานที่ซับซ้อน อีกตัวอย่างหนึ่งของสมมติฐานที่ซับซ้อนคือการสันนิษฐานว่าตัวแปรสุ่มแบบต่อเนื่องรับค่าจากช่วงที่มีความน่าจะเป็น ในกรณีนี้ การกระจายของตัวแปรสุ่มสามารถเป็นคลาสของการแจกแจงแบบต่อเนื่องแบบใดก็ได้

บ่อยครั้งที่ทราบการกระจายของปริมาณ และจำเป็นต้องทดสอบสมมติฐานเกี่ยวกับค่าพารามิเตอร์ของการแจกแจงนี้โดยใช้ตัวอย่างการสังเกต สมมติฐานดังกล่าวเรียกว่า พารามิเตอร์.

สมมติฐานที่จะทดสอบเรียกว่า สมมติฐานว่างและแสดงว่า นอกจากสมมติฐานแล้ว ยังมีการพิจารณาสมมติฐานทางเลือก (แข่งขันกัน) อีกข้อหนึ่งด้วย ตัวอย่างเช่น หากกำลังทดสอบสมมติฐานว่าพารามิเตอร์เท่ากับค่าที่กำหนด นั่นคือ : ดังนั้นหนึ่งในสมมติฐานต่อไปนี้สามารถถือเป็นสมมติฐานทางเลือกได้: : ; : ; : ; : , ค่าที่ตั้งไว้อยู่ที่ไหน, . การเลือกสมมติฐานทางเลือกถูกกำหนดโดยการกำหนดปัญหาเฉพาะ

กฎที่ใช้ในการตัดสินใจยอมรับหรือปฏิเสธสมมติฐานเรียกว่า เกณฑ์. เนื่องจากการตัดสินใจขึ้นอยู่กับตัวอย่างการสังเกตของตัวแปรสุ่ม จึงจำเป็นต้องเลือกสถิติที่เหมาะสม ซึ่งในกรณีนี้เรียกว่า สถิติการทดสอบ เมื่อทำการทดสอบสมมติฐานเชิงพาราเมทริกอย่างง่าย: สถิติเดียวกันจะถูกเลือกเป็นสถิติเกณฑ์สำหรับการประมาณค่าพารามิเตอร์

การทดสอบสมมติฐานทางสถิติใช้หลักการที่ว่าเหตุการณ์ที่มีความน่าจะเป็นต่ำนั้นถือว่าเป็นไปไม่ได้ และเหตุการณ์ที่มีความเป็นไปได้สูงจะได้รับการพิจารณาว่าเป็นเหตุการณ์ที่แน่นอน หลักการนี้สามารถนำไปปฏิบัติได้ดังต่อไปนี้ ก่อนการวิเคราะห์ตัวอย่าง ความน่าจะเป็นเล็กน้อยได้รับการแก้ไขเรียกว่า ระดับความสำคัญ. อนุญาต เป็นชุดของค่าของสถิติ และเป็นส่วนย่อยที่ภายใต้เงื่อนไขที่สมมติฐานเป็นจริง ความน่าจะเป็นที่สถิติเกณฑ์เข้ามีค่าเท่ากับ กล่าวคือ .

แสดงด้วยค่าตัวอย่างของสถิติที่คำนวณจากกลุ่มตัวอย่างจากการสังเกต เกณฑ์กำหนดไว้ดังนี้: ปฏิเสธสมมติฐาน if ; ยอมรับสมมติฐานว่าถ้า การทดสอบโดยใช้ระดับความสำคัญที่กำหนดไว้ล่วงหน้าเรียกว่า เกณฑ์ความสำคัญ. ชุดของค่าทั้งหมดของสถิติเกณฑ์ที่ตัดสินใจปฏิเสธสมมติฐานเรียกว่า พื้นที่วิกฤต; พื้นที่ที่เรียกว่า พื้นที่รับสมมติฐาน

ระดับนัยสำคัญกำหนดขนาดของภูมิภาควิกฤต ตำแหน่งของขอบเขตวิกฤตบนชุดค่าของสถิติขึ้นอยู่กับการกำหนดสมมติฐานทางเลือก ตัวอย่างเช่น หากมีการทดสอบสมมติฐาน : , และสมมติฐานทางเลือกถูกกำหนดเป็น : () จากนั้นบริเวณวิกฤตจะอยู่ที่ "หาง" ทางขวา (ซ้าย) ของการกระจายสถิติ กล่าวคือ มีรูปแบบของความไม่เท่าเทียมกัน : () โดยที่ และ คือ ค่าของสถิติที่ยอมรับด้วยความน่าจะเป็น ตามลำดับ และหากสมมติฐานเป็นจริง ในกรณีนี้เรียกว่าเกณฑ์ ฝ่ายเดียวตามลำดับ ถนัดขวาและถนัดซ้าย หากตั้งสมมติฐานทางเลือกเป็น : แสดงว่าบริเวณวิกฤตจะอยู่ที่ "ส่วนท้าย" ทั้งสองของการแจกแจง นั่นคือ ถูกกำหนดโดยเซตของอสมการ และ ; ในกรณีนี้เรียกว่าเกณฑ์ ทวิภาคี.

ในรูป 30 แสดงตำแหน่งของบริเวณวิกฤตสำหรับสมมติฐานทางเลือกต่างๆ นี่คือความหนาแน่นของการแจกแจงของสถิติเกณฑ์โดยมีเงื่อนไขว่าสมมติฐานเป็นจริงเป็นพื้นที่ยอมรับสมมติฐาน .

ดังนั้น การทดสอบสมมติฐานทางสถิติแบบพารามิเตอร์โดยใช้การทดสอบนัยสำคัญสามารถแบ่งออกเป็นขั้นตอนต่อไปนี้:

1) กำหนดสมมติฐานที่ทดสอบได้ () และทางเลือก ()

2) กำหนดระดับความสำคัญ ; ที่ไม่สอดคล้องกับผลการสังเกต ถ้า ยอมรับสมมติฐาน กล่าวคือ สมมติว่าสมมติฐานไม่ขัดแย้งกับผลการสังเกต

โดยปกติ เมื่อดำเนินการตามรายการที่ 4 - 7 จะใช้สถิติ ซึ่งปริมาณของข้อมูลที่จัดทำเป็นตาราง: สถิติที่มีการแจกแจงแบบปกติ สถิติของนักเรียน สถิติของฟิชเชอร์

ตัวอย่างที่ 3. ตามข้อมูลหนังสือเดินทางของเครื่องยนต์รถยนต์ ปริมาณการใช้เชื้อเพลิงต่อ 100 กม.ระยะคือ 10 ลิตร. ผลจากการออกแบบเครื่องยนต์ใหม่ คาดว่าการสิ้นเปลืองน้ำมันเชื้อเพลิงจะลดลง กำลังดำเนินการทดสอบเพื่อยืนยัน 25 สุ่มเลือกยานพาหนะพร้อมเครื่องยนต์ที่อัปเกรดแล้ว และค่าเฉลี่ยตัวอย่างการใช้เชื้อเพลิงต่อ 100 กม.ไมล์สะสมตามผลการทดสอบคือ 9.3 ลิตร. สมมติว่าตัวอย่างการใช้เชื้อเพลิงได้มาจากประชากรที่มีการกระจายตามปกติโดยมีค่าเฉลี่ยและความแปรปรวน โดยมีเงื่อนไขว่าสมมติฐานของภูมิภาควิกฤตสำหรับสถิติดั้งเดิมนั้นเป็นจริง กล่าวคือ เท่ากับระดับนัยสำคัญ ค้นหาความน่าจะเป็นของข้อผิดพลาดประเภทที่หนึ่งและสองสำหรับเกณฑ์ที่มีพื้นที่วิกฤตดังกล่าว มีการแจกแจงแบบปกติที่มีค่าเฉลี่ยเท่ากับและความแปรปรวนเท่ากับ เราพบความน่าจะเป็นของข้อผิดพลาดประเภทที่สองตามสูตร (11.2):

ดังนั้นตามเกณฑ์ที่ยอมรับ 13.6% ของยานพาหนะที่มีการสิ้นเปลืองน้ำมันเชื้อเพลิง 9 ลิตรบน 100 กม.ไมล์สะสมจัดอยู่ในประเภทรถยนต์ที่มีการสิ้นเปลืองเชื้อเพลิง 10 ลิตร.

4. ความถี่เชิงทฤษฎีและเชิงประจักษ์ เกณฑ์ความยินยอม

ความถี่เชิงประจักษ์- ความถี่ที่ได้รับจากประสบการณ์ (การสังเกต) ความถี่ตามทฤษฎีคำนวณโดยสูตร สำหรับการแจกแจงแบบปกติสามารถหาได้ดังนี้:

, (11.3)

คำถามเกี่ยวกับการประเมินทางสถิติเชื่อมโยงแง่มุมที่เป็นปัญหาของสถิติทางคณิตศาสตร์ เช่น วิธีการทางวิทยาศาสตร์ ตัวแปรสุ่ม การแจกแจงทางสถิติ เป็นต้น ตัวอย่างใดๆ มีข้อผิดพลาดโดยธรรมชาติเนื่องจากการครอบคลุมหน่วยที่ไม่สมบูรณ์ ข้อผิดพลาดในการวัด และสาเหตุที่คล้ายกัน ข้อผิดพลาดดังกล่าวใน ชีวิตจริงให้สมมติฐานแต่ละข้อ (โดยเฉพาะ ซึ่งกำหนดขึ้นบนพื้นฐานของข้อสรุปทางเศรษฐกิจ) มีลักษณะสุ่มแบบสุ่ม โดยไม่คำนึงถึงจำนวนของตัวแปรที่กำหนดโดยสมมติฐานทางทฤษฎี สันนิษฐานว่าอิทธิพล ประเภทต่างๆสามารถอธิบายข้อผิดพลาดได้อย่างแม่นยำโดยใช้องค์ประกอบเดียวเท่านั้น วิธีการนี้ช่วยให้เราสามารถจำกัดตัวเองให้อยู่ในการกระจายความน่าจะเป็นแบบหนึ่งมิติด้วยการประมาณค่าพารามิเตอร์หลายตัวพร้อมกัน

การประเมินทางสถิติเป็นหนึ่งในสองประเภทของการตัดสินทางสถิติ (ประเภทที่สองคือการทดสอบสมมติฐาน) เป็นวิธีพิเศษในการตัดสินค่าตัวเลขของลักษณะเฉพาะ (พารามิเตอร์) ของการกระจายตัวของประชากรทั่วไปตามข้อมูลตัวอย่างจากประชากรกลุ่มนี้ นั่นคือด้วยผลลัพธ์ของการสังเกตแบบคัดเลือกเรากำลังพยายามประเมิน (ด้วยความแม่นยำสูงสุด) ค่าของพารามิเตอร์บางอย่างที่การกระจายของลักษณะ (เปลี่ยนได้) ที่เราสนใจนั้นขึ้นอยู่กับประชากรทั่วไป เนื่องจากกลุ่มตัวอย่างมีเพียงกลุ่มย่อยของประชากร (บางครั้งเป็นจำนวนที่น้อยมาก) จึงมีความเสี่ยงที่จะเกิดข้อผิดพลาด แม้จะลดความเสี่ยงนี้ด้วยการเพิ่มจำนวนหน่วยสังเกตการณ์ แต่ก็ยังเกิดขึ้นในระหว่างการสังเกตแบบคัดเลือก ดังนั้น การตัดสินใจบนพื้นฐานของผลลัพธ์ของกลุ่มตัวอย่างจึงมีลักษณะความน่าจะเป็น แต่จะเป็นการผิดที่จะพิจารณาการตัดสินทางสถิติในแง่ของความน่าจะเป็นเท่านั้น วิธีการนี้ไม่เพียงพอที่จะสร้างสมมติฐานทางทฤษฎีที่ถูกต้องเกี่ยวกับพารามิเตอร์ของประชากรทั่วไปเสมอไป บ่อยครั้งจำเป็นต้องมีการตัดสินเพิ่มเติมจำนวนหนึ่งเพื่อให้เหตุผลที่ลึกซึ้งยิ่งขึ้น ตัวอย่างเช่น จำเป็นต้องประมาณค่าของจำนวนคนงานที่มีทักษะโดยเฉลี่ยในวิสาหกิจของภูมิภาคด้วยค่าประมาณที่เป็นไปได้มากที่สุด ในกรณีนี้ จะประมาณค่าเฉลี่ยเลขคณิตของตัวแปร x จากประชากรทั่วไปซึ่งมีการแจกแจงแบบปกติ ได้รับตัวอย่างสำหรับแอตทริบิวต์นี้ในจำนวน พีหน่วย มันเป็นสิ่งจำเป็นในการแก้ปัญหา: ค่าใดตามข้อมูลตัวอย่างควรใช้เป็นค่าที่ใกล้เคียงที่สุดกับค่าเฉลี่ยในประชากรทั่วไป? มีค่าดังกล่าวหลายค่าซึ่งการคาดหมายทางคณิตศาสตร์ซึ่งเท่ากับพารามิเตอร์ที่ต้องการ (หรือใกล้เคียง): ก) ค่าเฉลี่ยเลขคณิต b) แฟชั่น; c) ค่ามัธยฐาน; d) ค่าเฉลี่ย คำนวณโดยช่วงของการเปลี่ยนแปลง ฯลฯ

จากมุมมองความน่าจะเป็น แต่ละปริมาณข้างต้นสามารถพิจารณาได้ว่าเป็นการประมาณค่าพารามิเตอร์ประชากรที่ต้องการ (x) ได้ดีที่สุด เนื่องจากความคาดหมายทางคณิตศาสตร์ของแต่ละฟังก์ชันเหล่านี้ (โดยเฉพาะอย่างยิ่งสำหรับตัวอย่างขนาดใหญ่) มีค่าเท่ากับค่าเฉลี่ยทั่วไป . สมมติฐานนี้เกิดจากการทำซ้ำของกลุ่มตัวอย่างจากประชากรทั่วไปกลุ่มเดียวกัน จะได้ผลลัพธ์ที่ถูกต้อง "โดยเฉลี่ย"

ความถูกต้อง "โดยเฉลี่ย" อธิบายโดยความเท่าเทียมกันของการเบี่ยงเบนบวกและลบของข้อผิดพลาดที่เกิดขึ้นซ้ำ ๆ ในการประมาณค่าค่าเฉลี่ยทั่วไปนั่นคือข้อผิดพลาดในการประมาณค่าเฉลี่ยจะเป็นศูนย์

ในทางปฏิบัติตามกฎแล้วจะมีการจัดระเบียบตัวอย่างหนึ่งตัวอย่างดังนั้นผู้วิจัยจึงสนใจคำถามเกี่ยวกับการประมาณค่าพารามิเตอร์ที่ต้องการที่แม่นยำยิ่งขึ้นโดยพิจารณาจากผลลัพธ์ของกลุ่มตัวอย่างเฉพาะ ในการแก้ปัญหาดังกล่าว นอกเหนือจากข้อสรุปที่ตามมาโดยตรงจากการคำนวณความน่าจะเป็นเชิงนามธรรมแล้ว จำเป็นต้องมีกฎเพิ่มเติมเพื่อกระตุ้นการประมาณค่าที่ดีที่สุดของค่าพารามิเตอร์ที่ต้องการของประชากรทั่วไป

มีหลายวิธีเพียงพอในการประมาณค่าคงที่จากการสังเกตตัวอย่าง ข้อใดที่ดีที่สุดในการแก้ปัญหาการวิจัยเฉพาะ - เกี่ยวข้องกับทฤษฎีการประเมินทางสถิติ สำรวจเงื่อนไขที่การประเมินนี้หรือการประเมินนั้นควรปฏิบัติตาม เน้นที่การประเมินที่ดีกว่าในสถานการณ์ที่กำหนด ทฤษฎีการประเมินชี้ให้เห็นถึงความเหนือกว่าของการประเมินแบบหนึ่งมากกว่าแบบอื่น

ดังที่คุณทราบ ข้อมูลที่ได้รับจากกลุ่มตัวอย่างไม่ได้จัดหมวดหมู่ในข้อสรุป ตัวอย่างเช่น หากสัตว์ 99 ตัวจาก 100 ตัวที่ศึกษามีสุขภาพแข็งแรงเนื่องจากโรคของพวกมัน ก็มีความเป็นไปได้ที่สัตว์หนึ่งตัวที่ยังไม่ได้ตรวจสอบจะติดเชื้อไวรัสดังกล่าว เนื่องจากไม่น่าจะเป็นไปได้ จึงสรุปได้ว่าโรคนี้ไม่มีอยู่จริง ในกรณีส่วนใหญ่ ข้อสรุปนี้สมเหตุสมผลอย่างสมบูรณ์

ผู้ทดลอง (นักวิจัย) ไม่ได้อาศัยความน่าเชื่อถือของข้อมูลโดยอาศัยข้อสรุปดังกล่าวในกิจกรรมภาคปฏิบัติ แต่อาศัยความน่าจะเป็นเท่านั้น

อีกด้านหนึ่งของการสังเกตตัวอย่าง ดังที่ระบุไว้แล้ว แก้ปัญหาการกำหนดระดับความน่าเชื่อถือของการประมาณการตัวอย่างที่ได้รับอย่างเป็นกลางที่สุด การแก้ปัญหานี้คือการพยายามแสดงนิพจน์ความน่าจะเป็นที่แม่นยำที่สุด นั่นคือ เรากำลังพูดถึงการกำหนดระดับความแม่นยำของการประมาณการ ที่นี่ ผู้วิจัยกำหนดขอบเขตของความคลาดเคลื่อนที่เป็นไปได้ระหว่างการประมาณค่าที่ได้จากตัวอย่างกับมูลค่าที่แท้จริงของค่าในประชากรทั่วไป

ความถูกต้องของการประมาณค่าเกิดจากวิธีการคำนวณตามข้อมูลตัวอย่าง และวิธีการเลือกหน่วยในตัวอย่าง

วิธีการได้ค่าประมาณเกี่ยวข้องกับขั้นตอนการคำนวณใดๆ (วิธีการ กฎ สูตรพีชคณิต) นี่คือลำดับความสำคัญของทฤษฎีการประมาณค่าทางสถิติ วิธีการคัดเลือกทำให้เกิดคำถามเกี่ยวกับเทคนิคในการดำเนินการวิจัยตัวอย่าง

ที่กล่าวมานี้ทำให้เราสามารถกำหนดแนวคิดของ "การประเมินทางสถิติ" ได้

การประเมินทางสถิติ- เป็นค่าโดยประมาณของพารามิเตอร์ที่ต้องการของประชากรทั่วไป ซึ่งได้มาจากผลลัพธ์ของกลุ่มตัวอย่างและให้ความเป็นไปได้ในการตัดสินใจอย่างมีข้อมูลเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักของประชากรทั่วไป

สมมุติว่า ^ "เป็นค่าประมาณทางสถิติของค่าพารามิเตอร์ที่ไม่ทราบค่า ^ ของการแจกแจงทางทฤษฎี โดยทำซ้ำเหมือนเดิม

ขนาดกลุ่มตัวอย่างจากประชากรพบการประมาณการและ 2 ^ ""n,

มีความหมายต่างกัน ดังนั้น การประมาณค่า ^ " จึงถือได้ว่า

ตัวแปรสุ่มและ +17 สอง, 3 ~ "n - เป็นค่าที่เป็นไปได้ ในฐานะตัวแปรสุ่ม ฟังก์ชันนี้จะกำหนดลักษณะเฉพาะด้วยฟังก์ชันความหนาแน่นของความน่าจะเป็น เนื่องจากฟังก์ชันนี้เกิดจากการสังเกตแบบเลือก (การทดลอง) จึงเป็น เรียกว่า การกระจายแบบคัดเลือกฟังก์ชันดังกล่าวอธิบายความหนาแน่นของความน่าจะเป็นสำหรับการประมาณการแต่ละครั้ง โดยใช้ตัวอย่างจำนวนหนึ่ง

การสังเกต หากเราคิดว่า ค่าประมาณทางสถิติ ^ " เป็นฟังก์ชันพีชคณิตของชุดข้อมูลบางชุด และชุดดังกล่าวจะได้รับระหว่างการสังเกตแบบเลือก

โดยทั่วไป ค่าประมาณจะได้รับนิพจน์: ® n = f (Xl.X2, ^ 3, ... X t)

ในตอนท้ายของการสำรวจตัวอย่าง ฟังก์ชันนี้ไม่ใช่การประเมินทั่วไปอีกต่อไป แต่ใช้ค่าเฉพาะ กล่าวคือ ฟังก์ชันนี้จะกลายเป็นการประเมินเชิงปริมาณ (ตัวเลข) กล่าวอีกนัยหนึ่ง จากนิพจน์ข้างต้นของฟังก์ชันนั้นเป็นไปตามที่ตัวบ่งชี้ใดๆ ที่ระบุลักษณะผลลัพธ์ของการสังเกตตัวอย่างถือได้ว่าเป็นค่าประมาณ ค่าเฉลี่ยตัวอย่างคือค่าประมาณของค่าเฉลี่ยประชากร ความแปรปรวนที่คำนวณจากกลุ่มตัวอย่างหรือค่าของส่วนเบี่ยงเบนมาตรฐานที่คำนวณจากตัวอย่างนั้นเป็นค่าประมาณของลักษณะที่เกี่ยวข้องของประชากรทั่วไป ฯลฯ

ดังที่ระบุไว้แล้ว การคำนวณค่าประมาณทางสถิติไม่ได้รับประกันการขจัดข้อผิดพลาด บรรทัดล่างคือหลังไม่ควรเป็นระบบ การปรากฏตัวของพวกเขาควรเป็นแบบสุ่ม ให้เราพิจารณาด้านระเบียบวิธีของบทบัญญัตินี้

สมมติว่าค่าประมาณ ^ "ให้ค่าที่ไม่แน่นอนของการประมาณการ ^ ของประชากรที่มีข้อเสีย ในกรณีนี้ ค่าที่คำนวณได้แต่ละค่า = 1,2,3, ..., n) จะน้อยกว่าค่าที่แท้จริงของ มูลค่า $

ด้วยเหตุผลนี้ ค่าคาดหมายทางคณิตศาสตร์ (ค่ากลาง) ของตัวแปรสุ่มในค่า in จะน้อยกว่าค่า in นั่นคือ (M (^ n. และในทางกลับกัน หากให้ค่าที่เกินมา ค่าคาดหมายทางคณิตศาสตร์)

สุ่ม ^" จะมากกว่า $

ตามมาด้วยการใช้การประมาณทางสถิติ การคาดหมายทางคณิตศาสตร์ซึ่งไม่เท่ากับค่าพารามิเตอร์ที่ประมาณไว้ ทำให้เกิดข้อผิดพลาดอย่างเป็นระบบ กล่าวคือ เกิดข้อผิดพลาดที่ไม่สุ่มซึ่งบิดเบือนผลการวัดไปในทิศทางเดียว

ความต้องการตามธรรมชาติเกิดขึ้น: การคาดหมายทางคณิตศาสตร์ของการประมาณการ ^ "ควรเท่ากับพารามิเตอร์โดยประมาณ การปฏิบัติตามข้อกำหนดนี้ไม่ได้ขจัดข้อผิดพลาดโดยทั่วไป เนื่องจากค่าตัวอย่างของการประมาณการอาจมากกว่าหรือน้อยกว่ามูลค่าจริง ของการประมาณการของประชากรทั่วไป แต่ข้อผิดพลาดจากค่า ^ หนึ่งและอีกทิศทางหนึ่งจากค่า ^ จะเกิดขึ้น (ตามทฤษฎีความน่าจะเป็น) ด้วยความถี่เดียวกัน ดังนั้น การปฏิบัติตามข้อกำหนดนี้ การคาดหมายทางคณิตศาสตร์ของการประมาณการตัวอย่างจึงต้อง เท่ากับค่าพารามิเตอร์โดยประมาณ กำจัดข้อผิดพลาดที่เป็นระบบ (ไม่สุ่ม) นั่นคือ

เอ็ม (ใน) = 6.

การเลือกค่าประมาณทางสถิติที่ให้ค่าประมาณที่ดีที่สุดของค่าพารามิเตอร์ที่ประมาณไว้เป็นปัญหาสำคัญในทฤษฎีการประมาณค่า หากทราบว่าการกระจายของตัวแปรสุ่มภายใต้การศึกษาในกลุ่มประชากรทั่วไปนั้นสอดคล้องกับกฎการแจกแจงแบบปกติ ก็จำเป็นต้องประมาณการคาดหมายทางคณิตศาสตร์และค่าเบี่ยงเบนมาตรฐานจากข้อมูลตัวอย่าง นี่คือคำอธิบายโดยข้อเท็จจริงที่ว่าทั้งสองลักษณะนี้กำหนดรากฐานที่สร้างการแจกแจงแบบปกติอย่างสมบูรณ์ หากมีการกระจายตัวแปรสุ่มภายใต้การศึกษาตามกฎหมายปัวซอง พารามิเตอร์ ^ จะถูกประเมิน เนื่องจากเป็นตัวกำหนดการกระจายนี้

สถิติทางคณิตศาสตร์แยกแยะวิธีการดังกล่าวในการรับค่าประมาณทางสถิติจากข้อมูลตัวอย่าง: วิธีโมเมนต์ วิธีความน่าจะเป็นสูงสุด

เมื่อได้ค่าประมาณโดยวิธีโมเมนต์ โมเมนต์ของประชากรทั่วไปจะถูกแทนที่ด้วยโมเมนต์ของกลุ่มตัวอย่าง (แทนที่จะใช้ความน่าจะเป็นกับน้ำหนัก จะใช้ความถี่)

ในการประมาณค่าทางสถิติเพื่อให้ "ค่าประมาณที่ดีที่สุด" กับคุณลักษณะทั่วไป จะต้องมีคุณสมบัติหลายอย่าง พวกเขาจะกล่าวถึงด้านล่าง

ความเป็นไปได้ในการเลือกค่าประมาณที่ดีที่สุดเกิดจากความรู้เกี่ยวกับคุณสมบัติพื้นฐานและความสามารถในการจำแนกการประมาณตามคุณสมบัติเหล่านี้ ในวรรณคดีคณิตศาสตร์ "คุณสมบัติของค่าประมาณ" บางครั้งเรียกว่า "ข้อกำหนดสำหรับการประมาณค่า" หรือ "เกณฑ์สำหรับการประมาณค่า" คุณสมบัติหลักของการประมาณทางสถิติ ได้แก่ ความเป็นกลาง ประสิทธิภาพ ความสามารถ ความเพียงพอ

หากเราถือว่าค่าเฉลี่ยตัวอย่าง (~) และความแปรปรวนตัวอย่าง

(Sv) เป็นค่าประมาณของลักษณะทั่วไปที่เกี่ยวข้อง (^) นั่นคือการคาดหมายทางคณิตศาสตร์เราพิจารณาว่ามีจำนวนมาก

หน่วยสุ่มตัวอย่างชื่อลักษณะ (~) จะถูกประมาณการความคาดหวังทางคณิตศาสตร์ของพวกเขา หากจำนวนหน่วยตัวอย่างมีน้อย ลักษณะเหล่านี้อาจแตกต่างอย่างมากจากการคาดการณ์ทางคณิตศาสตร์ที่สอดคล้องกัน

หากค่าเฉลี่ยของคุณลักษณะตัวอย่างที่เลือกเป็นการประมาณการสอดคล้องกับค่าของคุณลักษณะทั่วไป การประมาณจะเรียกว่าไม่มีอคติ การพิสูจน์ว่าความคาดหวังของค่าเฉลี่ยตัวอย่างเท่ากับค่าเฉลี่ยทั่วไป (m (x) = x) แสดงว่าค่า ~ เป็นค่าทั่วไปที่ไม่เอนเอียง

เฉลี่ย. สถานการณ์จะแตกต่างกันด้วยการกระจายตัวแบบเลือก (o) ของเธอ

M (ST 2) \u003d - o-2 .

ความคาดหวังทางคณิตศาสตร์ n ไม่เท่ากับค่าทั่วไป

การกระจายตัว ดังนั้น a h เป็นตัวประมาณแบบเอนเอียงของ " เพื่อขจัดข้อผิดพลาดอย่างเป็นระบบและรับตัวประมาณที่ไม่เอนเอียง ตัวอย่าง

ความแปรปรวนคูณด้วยการแก้ไข n - 1 (ตามมาจากการก่อตัว

ใน 2 _ 2 p พี -1 "น -1

สมการข้างต้น: n)

ดังนั้น จากตัวอย่างเล็กๆ ความแปรปรวนคือ:

2 Ch, - ~) 2 พีอี (x และ - ~) 2

cg ใน= x - = -.

พี พี - 1 หน้า -1

เศษส่วน (ป- 1) เรียกว่าการแก้ไขเบสเซล นักคณิตศาสตร์แห่งเบสเซลเป็นคนแรกที่ระบุว่าความแปรปรวนตัวอย่างเป็นการประมาณค่าความแปรปรวนทั่วไปแบบเอนเอียง และใช้การแก้ไขที่ระบุเพื่อแก้ไข

การให้คะแนน สำหรับตัวอย่างขนาดเล็ก การแก้ไข (n - 1) แตกต่างอย่างมากจาก 1 เมื่อมีจำนวนหน่วยสังเกตเพิ่มขึ้น จะเข้าใกล้ 1 อย่างรวดเร็ว ที่ n<>50 ความแตกต่างระหว่างคะแนนจะหายไปเช่น

° ~ "- . จากที่กล่าวมาแล้วคำจำกัดความต่อไปนี้ของข้อกำหนดของความไม่ลำเอียงจะตามมา

ไม่ลำเอียงเรียกว่าการประมาณทางสถิติ การคาดหมายทางคณิตศาสตร์ซึ่งขนาดกลุ่มตัวอย่างใดๆ จะเท่ากับค่า

พารามิเตอร์ของประชากรทั่วไปนั่นคือ m (^) = 9; ม.(x) = x.

หมวดหมู่ "ความคาดหวังทางคณิตศาสตร์" ได้รับการศึกษาในหลักสูตรของทฤษฎีความน่าจะเป็น นี่คือคุณลักษณะเชิงตัวเลขของตัวแปรสุ่ม การคาดหมายทางคณิตศาสตร์จะเท่ากับค่าเฉลี่ยของตัวแปรสุ่มโดยประมาณ การคาดการณ์ทางคณิตศาสตร์ของตัวแปรสุ่มแบบไม่ต่อเนื่องเรียกว่าผลรวมของผลิตภัณฑ์ทั้งหมดของมัน ค่าที่เป็นไปได้ตามความน่าจะเป็นของพวกเขา สมมติว่ามีการศึกษา n เรื่องซึ่งตัวแปรสุ่ม Xเอา w 1 คูณค่าของ w 2 คูณค่าของ W และคูณค่าของ X k ในกรณีนี้ W 1 + W 2 + W 3 + ... + W k \u003d n แล้วผลรวมของทั้งหมด ค่าที่ถ่าย x เท่ากับ

x 1 วัตต์ 1 + x 2 วัตต์ 2 + x 3 วัตต์ 3 + ... + x kw k

ค่าเฉลี่ยเลขคณิตของค่าเหล่านี้จะเป็น:

X 1 w 1 + x 2 w 2 + x 3 w 3 + ... + x kwk - w 1^ w 2 ^ w 3 ^ ^ w k

พีหรือ 1 p 2 p 3 p 1 p

เนื่องจาก n คือความถี่สัมพัทธ์ ^ ค่า X ^ พี- ความถี่สัมพัทธ์ของค่า x 2 เป็นต้น สมการข้างต้นจะอยู่ในรูปแบบ:

X = X 1 No. 1 + X 2 No. 2 + X 3 No. 3 + ... + X to N> ถึง

ด้วยการสังเกตตัวอย่างจำนวนมาก ความถี่สัมพัทธ์จะเท่ากับความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นโดยประมาณ นั่นคือ

ยู> 1 = L; ^ 2 \u003d W \u003d ™ k \u003d Pk ดังนั้น x 2 x 1 p 1 + x 2 p 2 + X 3 g. 3 + ... + X KRK แล้ว

x~ (x) ความหมายความน่าจะเป็นของผลการคำนวณคือ ค่าคาดหมายทางคณิตศาสตร์จะเท่ากันโดยประมาณ (ยิ่งแม่นยำ ยิ่งกลุ่มตัวอย่างมาก) กับค่าเฉลี่ยเลขคณิตของค่าที่สังเกตได้ของตัวแปรสุ่ม [M (x -) = ~ 1.

เกณฑ์ความไม่เอนเอียงรับประกันว่าจะไม่มีข้อผิดพลาดอย่างเป็นระบบในการประมาณค่าพารามิเตอร์ของประชากรทั่วไป

โปรดทราบว่าค่าประมาณตัวอย่าง (^) เป็นตัวแปรสุ่ม ค่าของตัวอย่างสามารถเปลี่ยนจากตัวอย่างหนึ่งไปยังอีกตัวอย่างหนึ่งได้ การวัดความแปรปรวน (การกระเจิง) รอบการคาดหมายทางคณิตศาสตร์ของพารามิเตอร์ของประชากรทั่วไป # แสดงถึงความแปรปรวน c2 (t)

อนุญาต ในและที่ -- การประมาณค่าพารามิเตอร์ที่ไม่เอนเอียงสองครั้ง ^ เช่น M (ใน") \u003d 6 และ M (d,) \u003d c. ความแปรปรวนของพวกเขา ใน 1 (ใน -) และ ในจี -). จาก 0 สองตัวถึง Artaud ให้เลือกอันที่มีการกระจายตัวน้อยที่สุดรอบพารามิเตอร์โดยประมาณ หากผลต่างคะแนน ^ "น้อยกว่าความแปรปรวน

ประมาณการ Sp จากนั้นค่าประมาณแรกจะถูกนำมาเป็น & นั่นคือ ^ "

ตัวประมาณที่ไม่เอนเอียง t ซึ่งมีความแปรปรวนน้อยที่สุดในบรรดาตัวประมาณค่าที่ไม่เอนเอียงที่เป็นไปได้ทั้งหมดของพารามิเตอร์ t ที่คำนวณจากตัวอย่างที่มีขนาดเท่ากัน เรียกว่า ตัวประมาณที่มีประสิทธิผล นี่คือคุณสมบัติที่สอง (ข้อกำหนด) ของการประมาณค่าทางสถิติของพารามิเตอร์ของประชากรทั่วไป ต้องจำไว้ว่าการประมาณค่าพารามิเตอร์ที่มีประสิทธิผลของประชากรทั่วไปซึ่งอยู่ภายใต้กฎหมายการจำหน่ายบางอย่างนั้นไม่ตรงกับการประมาณค่าพารามิเตอร์ของส่วนที่สองที่มีประสิทธิผล

เมื่อพิจารณาตัวอย่างขนาดใหญ่ การประมาณการทางสถิติควรมีคุณสมบัติความสามารถ ค่าประมาณสามารถ (ใช้คำว่า "พอดี" หรือ "สม่ำเสมอ" ด้วย) หมายความว่ายิ่งกลุ่มตัวอย่างมีขนาดใหญ่เท่าใด โอกาสที่ความผิดพลาดในการประมาณค่าจะไม่เกินค่าบวกเพียงเล็กน้อยเท่านั้น

หมายเลข E. ค่าประมาณ 6 ของพารามิเตอร์ ^ เรียกว่าสอดคล้องหากเป็นไปตามกฎหมาย ตัวเลขใหญ่กล่าวคือมีความเท่าเทียมกันดังต่อไปนี้:

/ shh | จี ใน <Е} = 1.

ดังที่คุณเห็น การประมาณค่าทางสถิติดังกล่าวเรียกว่าความสามารถ ซึ่งสำหรับ n จะเข้าใกล้พารามิเตอร์โดยประมาณในความน่าจะเป็น กล่าวอีกนัยหนึ่ง นี่คือค่าของตัวบ่งชี้ที่ได้รับจากกลุ่มตัวอย่างและค่าที่ใกล้เข้ามา (บังเอิญ) เนื่องจากกฎของตัวเลขจำนวนมากโดยการเพิ่มขนาดกลุ่มตัวอย่างตามการคาดหมายทางคณิตศาสตร์ ตัวอย่างเช่น หากความแปรปรวนของการประมาณที่ไม่เอนเอียงมีแนวโน้มเป็นศูนย์เป็น n การประมาณดังกล่าวก็กลายเป็นความสอดคล้องเช่นกัน เนื่องจากมีความแปรปรวนน้อยที่สุดที่เป็นไปได้ (สำหรับขนาดตัวอย่างที่กำหนด)

ประมาณการได้คือ:

1) ส่วนแบ่งของคุณลักษณะในกลุ่มตัวอย่าง นั่นคือ ความถี่ในการประมาณการส่วนแบ่งของคุณลักษณะในประชากรทั่วไป

2) ค่าเฉลี่ยตัวอย่างเป็นค่าประมาณของค่าเฉลี่ยทั่วไป

3) ความแปรปรวนตัวอย่างเป็นค่าประมาณของความแปรปรวนทั่วไป

4) ค่าสัมประสิทธิ์ตัวอย่างของความไม่สมมาตรและความโด่งเป็นค่าประมาณของสัมประสิทธิ์ทั่วไป

ในวรรณคดีเกี่ยวกับสถิติทางคณิตศาสตร์ ด้วยเหตุผลบางอย่าง เป็นไปไม่ได้เสมอไปที่จะค้นหาคำอธิบายของคุณสมบัติที่สี่ของการประมาณทางสถิติ - ความเพียงพอ ระดับ เพียงพอ(หรือละเอียดถี่ถ้วน) เป็นการประมาณการที่ผลลัพธ์ (รับรอง) ความสมบูรณ์ของข้อมูลตัวอย่างทั้งหมดเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักของประชากรทั่วไป ดังนั้น ค่าประมาณที่เพียงพอจะรวมข้อมูลทั้งหมดที่อยู่ในกลุ่มตัวอย่างเกี่ยวกับลักษณะทางสถิติที่ศึกษาของประชากรทั่วไป การประมาณการทั้งสามแบบที่พิจารณาก่อนหน้านี้ไม่สามารถให้ข้อมูลเพิ่มเติมที่จำเป็นเกี่ยวกับพารามิเตอร์ภายใต้การศึกษา เป็นการประมาณทางสถิติที่เพียงพอ

ดังนั้น ค่าเฉลี่ยเลขคณิตของกลุ่มตัวอย่าง ~ เป็นค่าประมาณที่ไม่เอนเอียงของค่าเฉลี่ยเลขคณิตของประชากร x ปัจจัยที่ไม่อคติของการประมาณนี้แสดงให้เห็นว่า: หากสุ่มตัวอย่างจำนวนมากจากประชากรทั่วไป ค่าเฉลี่ยของตัวอย่างเหล่านั้น *<отличались бы от генеральной средней в большую и меньшую сторону одинаково, то есть, свойство несмещенности хорошей оценки также показывает, что среднее значение бесконечно большого числа выборочных средних равно значению генеральной средней.

ในอนุกรมการแจกแจงแบบสมมาตร ค่ามัธยฐานคือค่าประมาณที่เป็นกลางของค่าเฉลี่ยโดยรวม และหากขนาดของกลุ่มตัวอย่างใกล้เคียงกับประชากรทั่วไป (P ~ * N) ค่ามัธยฐานสามารถอยู่ในอนุกรมดังกล่าวและค่าประมาณที่สม่ำเสมอของค่าเฉลี่ยทั่วไป ปริมาณมาก ค่าคลาดเคลื่อนมาตรฐานของค่ามัธยฐาน (Stme) คือ 1.2533 ของข้อผิดพลาดมาตรฐานของค่าเฉลี่ยตัวอย่าง

). นั่นคือ Stme * ดังนั้นค่ามัธยฐานจึงไม่สามารถประมาณค่าค่าเฉลี่ยเลขคณิตของประชากรได้อย่างมีประสิทธิภาพ เนื่องจากความคลาดเคลื่อนกำลังสองเฉลี่ยมีค่ามากกว่าความคลาดเคลื่อนกำลังสองเฉลี่ยของตัวอย่างเลขคณิตเฉลี่ย นอกจากนี้ ค่าเฉลี่ยเลขคณิตยังเป็นไปตามเงื่อนไขของความไม่เอนเอียงและความสามารถ ดังนั้นจึงเป็นค่าประมาณที่ดีที่สุด

การตั้งค่าดังกล่าวยังเป็นไปได้ ค่าเฉลี่ยเลขคณิตของกลุ่มตัวอย่างสามารถเป็นค่าประมาณที่ไม่เอนเอียงของค่ามัธยฐานในการแจกแจงประชากรแบบสมมาตรซึ่งค่าเฉลี่ยและค่ามัธยฐานเท่ากันได้หรือไม่ และค่าเฉลี่ยของกลุ่มตัวอย่างจะเป็นค่าประมาณที่สม่ำเสมอของค่ามัธยฐานประชากรหรือไม่ ในทั้งสองกรณี คำตอบจะเป็นใช่ สำหรับค่ามัธยฐานประชากร (ด้วยการแจกแจงแบบสมมาตร) ค่าเฉลี่ยเลขคณิตของกลุ่มตัวอย่างจะเป็นค่าประมาณที่ไม่เอนเอียงและสม่ำเสมอ

โปรดทราบว่า Cme ~ 1.2533 ครั้งที่แล้ว เราได้ข้อสรุป: ค่าเฉลี่ยเลขคณิตของกลุ่มตัวอย่าง ไม่ใช่ค่ามัธยฐาน เป็นการประมาณค่ามัธยฐานของประชากรทั่วไปที่ศึกษาอย่างมีประสิทธิภาพมากกว่า

คุณลักษณะแต่ละอย่างของตัวอย่างไม่จำเป็นต้องเป็นการประมาณที่ดีที่สุดของคุณลักษณะที่สอดคล้องกันของประชากร การทราบคุณสมบัติของการประมาณการช่วยให้เราสามารถแก้ปัญหาที่ไม่เพียงแต่เลือกการประมาณการเท่านั้น แต่ยังปรับปรุงอีกด้วย ตัวอย่างเช่น ลองพิจารณากรณีที่การคำนวณแสดงว่าค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างหลายกลุ่มจากประชากรทั่วไปเดียวกันในทุกกรณีมีค่าน้อยกว่าค่าเบี่ยงเบนมาตรฐานของประชากรทั่วไป และขนาดของผลต่างเกิดจาก ขนาดตัวอย่าง การคูณค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างด้วยปัจจัยการแก้ไข เราจะได้ค่าประมาณค่าเบี่ยงเบนมาตรฐานของประชากรที่ดีขึ้น สำหรับปัจจัยการแก้ไขดังกล่าว จะใช้การแก้ไขเบสเซล

พีฉัน พี

(P - 1) นั่นคือเพื่อขจัดอคติ หาค่าประมาณการ “พี่- 1. นิพจน์ตัวเลขดังกล่าวแสดงให้เห็นว่าค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างที่ใช้เป็นค่าประมาณ ให้ค่าพารามิเตอร์ประชากรที่ประเมินต่ำไป

ดังที่คุณทราบ ลักษณะทางสถิติของประชากรกลุ่มตัวอย่างเป็นการประมาณคร่าวๆ ของพารามิเตอร์ที่ไม่รู้จักของประชากร คะแนนสามารถอยู่ในรูปแบบของตัวเลขเดียวหรือบางจุดที่เฉพาะเจาะจง การประมาณค่าที่กำหนดโดยตัวเลขเดียวเรียกว่าการประมาณแบบจุด ดังนั้น ค่าเฉลี่ยตัวอย่าง (~) คือค่าประมาณจุดที่เป็นกลางและมีประสิทธิภาพมากที่สุดของค่าเฉลี่ยทั่วไป (x) และความแปรปรวนตัวอย่าง) คือการประมาณค่าจุดเอนเอียงของค่าเฉลี่ยทั่วไป

ความแปรปรวน () หากเราแสดงถึงข้อผิดพลาดเฉลี่ยของค่าเฉลี่ยตัวอย่าง t <>จากนั้นค่าประมาณจุดของค่าเฉลี่ยทั่วไปสามารถเขียนได้เป็น x ± m ° ซึ่งหมายความว่า ~ เป็นค่าประมาณของค่าเฉลี่ยทั่วไป x ที่มีค่าคลาดเคลื่อนเท่ากับ m" เป็นที่ชัดเจนว่าการประมาณค่าทางสถิติแบบจุดของ x และ o ไม่ควรมีข้อผิดพลาดอย่างเป็นระบบใน

โอ้~~o<в 2

ทิศทางของการประเมินค่าสูงไปหรือการประเมินค่าพารามิเตอร์ที่ประเมินต่ำไป x และ ดังที่กล่าวไว้ก่อนหน้านี้ ตัวประมาณที่ตรงตามเงื่อนไขดังกล่าวเรียกว่า

ไม่ลำเอียง ข้อผิดพลาดของพารามิเตอร์ m " คืออะไร นี่คือค่าเฉลี่ยของข้อผิดพลาดเฉพาะจำนวนมาก:

การประมาณค่าแบบจุดของพารามิเตอร์ประชากรทั่วไปประกอบด้วยข้อเท็จจริงที่ว่าจากการประมาณค่าตัวอย่างที่เป็นไปได้ต่างๆ กัน จะมีการเลือกตัวที่มีคุณสมบัติที่เหมาะสมที่สุดก่อน จากนั้นจึงคำนวณค่าของการประมาณนี้ ค่าที่คำนวณได้ของค่าหลังถือเป็นค่าประมาณที่ดีที่สุดสำหรับค่าจริงที่ไม่ทราบค่าของพารามิเตอร์ประชากร การคำนวณเพิ่มเติมที่เกี่ยวข้องกับการกำหนดข้อผิดพลาดในการประมาณค่าที่เป็นไปได้นั้นไม่จำเป็นเสมอไป (ขึ้นอยู่กับความแปรปรวนของงานการประเมิน) แต่ตามกฎแล้วมักจะดำเนินการเกือบทุกครั้ง

ให้เราพิจารณาตัวอย่างการกำหนดจุดโดยประมาณสำหรับค่าเฉลี่ยของคุณลักษณะที่กำลังศึกษาและส่วนแบ่งในประชากรทั่วไป

ตัวอย่าง.พืชผลในภูมิภาคนี้มีเนื้อที่ 20,000 เฮกตาร์ ด้วยการสำรวจตัวอย่าง 10% ของทุ่งนา ได้คุณสมบัติการคัดเลือกดังต่อไปนี้: ผลผลิตเฉลี่ย - 30 เซ็นต์ต่อเฮกตาร์, การกระจายผลผลิต - 4, พื้นที่ใต้พืชผลที่ให้ผลผลิตสูง - 1200 เฮกตาร์

สิ่งที่ต้องรู้เกี่ยวกับค่าของตัวบ่งชี้ผลผลิตเฉลี่ยของเมล็ดพืชในพื้นที่และซึ่งเป็นค่าตัวเลขของตัวบ่งชี้ส่วนแบ่ง (ความถ่วงจำเพาะ) ของพืชที่ให้ผลผลิตสูงในพื้นที่รวมของ u200bcereals อยู่ระหว่างการศึกษา

ภาค? นั่นคือจำเป็นต้องประเมินพารามิเตอร์ที่มีชื่อ (x, z) ในประชากรทั่วไป ในการคำนวณเกรด เรามี:

ไม่มี = 20000; - = 20000 x 0.1 = 2000; ~=30;<т = л / 4; № 2000,

อย่างที่ทราบกันดีอยู่แล้ว ค่าเฉลี่ยเลขคณิตแบบเลือกเฟ้นเป็นการประมาณการที่มีประสิทธิผล

ค่าเฉลี่ยเลขคณิตทั่วไป จึงสามารถยอมรับได้ว่า

ค่าประมาณที่ดีที่สุดของพารามิเตอร์ทั่วไป (^) คือ 30 เพื่อกำหนดระดับ

ความถูกต้องของการประมาณการจำเป็นต้องค้นหาข้อผิดพลาดเฉลี่ย (มาตรฐาน):

คือ น~ฉันเมษายน 2543 PPL

เสื้อ = L - (1--) = - (1--) = 0,04

วี น น i2000 2000^

ค่าความผิดพลาดที่เป็นผลลัพธ์บ่งบอกถึงความแม่นยำสูงของการประมาณการ ค่าของ m ในที่นี้หมายความว่าด้วยการทำซ้ำตัวอย่างดังกล่าวซ้ำๆ ข้อผิดพลาดในการประมาณค่าพารามิเตอร์จะเฉลี่ย 0.04 นั่นคือ หลังจุด

ตามการประมาณการ ผลผลิตเฉลี่ยในฟาร์มของภูมิภาคจะอยู่ที่ x = 30 - 0.04 เซ็นต์ต่อเฮกตาร์

เพื่อให้ได้ค่าประมาณแบบจุดของส่วนแบ่งของพืชผลธัญพืชที่ให้ผลผลิตสูงในพื้นที่ทั้งหมดของพืชผลธัญพืช ค่าประมาณที่ดีที่สุดสามารถใช้เป็นส่วนแบ่งในตัวอย่าง ¥ = 0.6 ดังนั้น เราสามารถพูดได้ว่าจากผลการสังเกต ค่าประมาณที่ดีที่สุดของตัวบ่งชี้โครงสร้างที่ต้องการจะเป็นตัวเลข 0.6 การปรับแต่งการคำนวณ เราควรคำนวณข้อผิดพลาดเฉลี่ยของการประมาณนี้: t และ (1 _ p) และ 0.6 (1 - 0.b) (1 = 0.01

วี พียังไม่มีข้อความ 2000 2000 เอ

ดังที่คุณเห็น ข้อผิดพลาดเฉลี่ยในการประมาณค่าคุณลักษณะทั่วไปคือ 0.01

ผลลัพธ์ที่ได้หมายความว่าหากตัวอย่างซ้ำหลายครั้งด้วยปริมาณเมล็ดพืช 2,000 เฮกตาร์ข้อผิดพลาดเฉลี่ยของการประมาณการส่วนแบ่ง (น้ำหนักเฉพาะ) ที่ยอมรับได้ของพืชที่ให้ผลผลิตสูงในพื้นที่ของพืชผลธัญพืชของรัฐวิสาหกิจ ในภูมิภาคจะเป็น ± 0.01 ในกรณีนี้ P = 0.6 ± 0.01 ในแง่เปอร์เซ็นต์ ส่วนแบ่งของพืชที่ให้ผลผลิตสูงในพื้นที่ธัญพืชทั้งหมดของเขตจะเฉลี่ย 60 ± I

การคำนวณแสดงให้เห็นว่าสำหรับกรณีใดกรณีหนึ่ง ค่าประมาณที่ดีที่สุดของตัวบ่งชี้โครงสร้างที่ต้องการจะเป็นตัวเลข 0.6 และค่าคลาดเคลื่อนเฉลี่ยของการประมาณค่าในทิศทางเดียวหรืออีกทางหนึ่งจะเท่ากับ 0.01 โดยประมาณ อย่างที่คุณเห็น การประมาณการค่อนข้างแม่นยำ

รู้จักวิธีการหลายวิธีในการประมาณค่าจุดเบี่ยงเบนมาตรฐานในกรณีที่ตัวอย่างทำจากประชากรทั่วไปของหน่วยที่มีการแจกแจงแบบปกติและไม่ทราบพารามิเตอร์ β การประมาณค่าที่ง่าย (คำนวณได้ง่ายที่สุด) คือช่วงของการแปรผัน (และ°) ของกลุ่มตัวอย่าง คูณด้วยปัจจัยการแก้ไขที่นำมาจากตารางมาตรฐาน และขึ้นอยู่กับขนาดตัวอย่าง (สำหรับตัวอย่างขนาดเล็ก) พารามิเตอร์ส่วนเบี่ยงเบนมาตรฐานในประชากรทั่วไปสามารถประมาณได้โดยใช้ความแปรปรวนตัวอย่างที่คำนวณได้ โดยคำนึงถึงจำนวนองศาอิสระ รากที่สองของความแปรปรวนนี้ให้ค่าที่จะใช้เป็นค่าประมาณของค่าเบี่ยงเบนมาตรฐานทั่วไป)

การใช้ค่าพารามิเตอร์ใน "คำนวณความคลาดเคลื่อนเฉลี่ยของการประมาณค่าเฉลี่ยทั่วไป (x") ในลักษณะที่กล่าวข้างต้น

ดังที่กล่าวไว้ก่อนหน้านี้ ตามข้อกำหนดของความสามารถ ความมั่นใจในความถูกต้องของการประมาณจุดเฉพาะจะเพิ่มขึ้นตามขนาดกลุ่มตัวอย่างที่เพิ่มขึ้น เป็นการยากที่จะแสดงตำแหน่งทางทฤษฎีนี้กับตัวอย่างการประมาณค่าแบบจุด อิทธิพลของขนาดกลุ่มตัวอย่างที่มีต่อความแม่นยำของการประมาณการนั้นชัดเจนเมื่อคำนวณการประมาณตามช่วงเวลา พวกเขาจะกล่าวถึงด้านล่าง

ตารางที่ 39 แสดงรายการค่าประมาณแบบจุดที่ใช้บ่อยที่สุดของพารามิเตอร์ประชากร

ตารางที่39

การประมาณค่าจุดพื้นฐาน _

การประมาณการที่คำนวณด้วยวิธีต่างๆ อาจมีขนาดไม่เท่ากัน ในเรื่องนี้ในการคำนวณเชิงปฏิบัติ เราไม่ควรจัดการกับการคำนวณตัวเลือกที่เป็นไปได้ตามลำดับ แต่ให้เลือกหนึ่งในตัวเลือกเหล่านี้โดยอาศัยคุณสมบัติของค่าประมาณต่างๆ

ด้วยหน่วยการสังเกตจำนวนน้อย การประมาณจุดจึงเป็นการสุ่มส่วนใหญ่ ดังนั้นจึงไม่น่าเชื่อถือมาก ดังนั้นในตัวอย่างขนาดเล็ก อาจมีความแตกต่างอย่างมากจากคุณลักษณะโดยประมาณของประชากรทั่วไป สถานการณ์นี้นำไปสู่ข้อผิดพลาดโดยรวมในข้อสรุปที่ใช้กับประชากรทั่วไปโดยพิจารณาจากผลลัพธ์ของกลุ่มตัวอย่าง ด้วยเหตุนี้ จึงใช้การประมาณตามช่วงเวลาสำหรับตัวอย่างขนาดเล็ก

ตรงกันข้ามกับการประมาณจุด การประมาณช่วงจะให้ช่วงของจุดที่พารามิเตอร์ประชากรต้องอยู่ นอกจากนี้ การประมาณตามช่วงเวลายังระบุถึงความน่าจะเป็น ดังนั้น จึงมีความสำคัญในการวิเคราะห์ทางสถิติ

มีการเรียกการประมาณช่วงเวลาซึ่งมีลักษณะเป็นตัวเลขสองตัว - ขอบเขตของช่วงเวลาที่ครอบคลุม (ครอบคลุม) พารามิเตอร์โดยประมาณ การประมาณการดังกล่าวเป็นช่วงระยะเวลาหนึ่งซึ่งพารามิเตอร์ที่ต้องการตั้งอยู่ด้วยความน่าจะเป็นที่กำหนด ศูนย์กลางของช่วงเวลาคือค่าประมาณจุดตัวอย่าง

ดังนั้น การประมาณค่าตามช่วงเวลาจึงเป็นการพัฒนาต่อไปของการประมาณค่าจุด เมื่อการประมาณค่าดังกล่าวไม่มีประสิทธิภาพด้วยขนาดตัวอย่างที่เล็ก

ปัญหาของการประมาณค่าช่วงในรูปแบบทั่วไปสามารถกำหนดได้ดังนี้ ตามข้อมูลของการสังเกตตัวอย่าง จำเป็นต้องสร้างช่วงตัวเลขซึ่งสัมพันธ์กับระดับความน่าจะเป็นที่เลือกไว้ก่อนหน้านี้ เป็นที่ถกเถียงกันอยู่ว่า พารามิเตอร์โดยประมาณอยู่ในช่วงนี้

หากเราใช้หน่วยสุ่มตัวอย่างจำนวนมากเพียงพอ โดยใช้ทฤษฎีบท Lyapunov เราสามารถพิสูจน์ความน่าจะเป็นที่ข้อผิดพลาดในการสุ่มตัวอย่างไม่เกินค่าที่กำหนด a นั่นคือ

และ ~ "*!" A หรือ I No. "g. yA.

โดยเฉพาะอย่างยิ่ง ทฤษฎีบทนี้ทำให้สามารถประมาณข้อผิดพลาดของความเท่าเทียมกันโดยประมาณได้:

- "P (n และ -ความถี่) x "x. n

ถ้า ^ * 2Xz..., x - ~ ตัวแปรสุ่มอิสระและ n ความน่าจะเป็นของค่าเฉลี่ย (x) จะอยู่ในช่วงตั้งแต่ a ถึง 6 และสามารถกำหนดได้โดยสมการ:

p(a(X (จ) 1 และ 2 เหล่านี้,

_a- อดีต); _ ใน - E (x) DE ° a

ความน่าจะเป็น P เรียกว่า ความน่าจะเป็นของความเชื่อมั่น

ดังนั้น ความน่าจะเป็นของความเชื่อมั่น (ความน่าเชื่อถือ) ของการประมาณค่าพารามิเตอร์ทั่วไปตามการประมาณการตัวอย่างคือความน่าจะเป็นที่จะรับรู้ความไม่เท่าเทียมกัน:

| ~ X | <а; | и, ориентир | <д

โดยที่ a คือความคลาดเคลื่อนเล็กน้อยของการประมาณการ ตามค่าเฉลี่ยและส่วนแบ่ง

ขอบเขตซึ่งลักษณะทั่วไปสามารถระบุได้ด้วยความน่าจะเป็นที่กำหนดนี้เรียกว่าช่วงความเชื่อมั่น (ขอบเขตความเชื่อมั่น) และขอบเขตของช่วงเวลานี้เรียกว่าขอบเขตความมั่นใจ

ขอบเขตความเชื่อมั่น (หรือความอดทน) เป็นขอบเขตที่เกินกว่าลักษณะที่กำหนดเนื่องจากความผันผวนแบบสุ่มมีความน่าจะเป็นที่ไม่มีนัยสำคัญ (A ^ 0.5; p 2<0,01; Л <0,001). Понятие "доверительный интервал" введено Дж.Нейман и К.Пирсоном (1950 г.). Это установленный по выборочным данным интервал, который с заданной вероятностью (доверительной вероятностью) охватывает (покрывает) настоящее, но неизвестно для нас значение параметра. Если уровня доверительной вероятности принять значения 0,95, то эта вероятность свидетельствует о том, что при частых приложениях данного способа (метода) вычислений доверительный интервал примерно в 95% случаев будет покрывать параметр. Доверительный интервал генеральной средней и генеральной доли определяется на основе приведенных выше неравенств, из которых

มันตามมาว่า ~ _A - x - ~ + A; หมายเลข _A - g. - หมายเลข + A.

ในสถิติทางคณิตศาสตร์ ความน่าเชื่อถือของพารามิเตอร์เฉพาะนั้นประเมินโดยค่าของความน่าจะเป็นสามระดับต่อไปนี้ (บางครั้งเรียกว่า "เกณฑ์ความน่าจะเป็น"): L \u003d 0.95; ^ 2 \u003d 0.99; P 3 \u003d 0.999 ความน่าจะเป็นที่ ก็ตัดสินใจละเลย นั่นคือ เอ 1 = 0.05;; 2 = 0.01; "3 \u003d 0.001 เรียกว่าระดับที่มีนัยสำคัญหรือระดับนัยสำคัญ จากระดับข้างต้น ข้อสรุปที่น่าเชื่อถือได้มาจากความน่าจะเป็น P 3 = 0.999. ระดับความเชื่อมั่นแต่ละระดับสอดคล้องกับค่าที่แน่นอนของการเบี่ยงเบนมาตรฐาน (ดูตารางที่ 27) หากไม่มีตารางค่ามาตรฐานของช่วงความน่าจะเป็นที่มีอยู่ ความน่าจะเป็นนี้สามารถคำนวณได้ด้วยการประมาณระดับหนึ่งโดยใช้สูตร:

อาร์ (<) = - = ^ = 1 อี"~ฉัน

ในรูปที่ 11 ส่วนเหล่านั้นของพื้นที่ทั้งหมดที่ล้อมรอบด้วยเส้นโค้งปกติและแกน abscissa ที่สอดคล้องกับค่า <= ± 1;<= ± 2; <= и 3 и для которых вероятности равны 0,6287, 0,9545; 0,9973. При точечном оценке рассчитывается, как уже известно, средняя ошибка выборки, при интервальном - предельная.

ขึ้นอยู่กับหลักการของการเลือกหน่วย (ซ้ำหรือไม่ซ้ำ) สูตรโครงสร้างสำหรับการคำนวณข้อผิดพลาดในการสุ่มตัวอย่าง

ต่างกันที่ขนาดของการแก้ไข (N)

ข้าว. 11. เส้นความน่าจะเป็นปกติ

ตารางที่ 40 แสดงสูตรการคำนวณข้อผิดพลาดในการประมาณค่าพารามิเตอร์ทั่วไป

ให้เราพิจารณากรณีเฉพาะของการประมาณค่าช่วงเวลาของพารามิเตอร์ของประชากรทั่วไปตามข้อมูลของการสังเกตตัวอย่าง

ตัวอย่าง.ระหว่างการสำรวจคัดเลือกฟาร์มในภูมิภาค พบว่าผลผลิตน้ำนมเฉลี่ยต่อวันของโค (x) อยู่ที่ 10 กก. ส่วนแบ่งของโคพันธุ์แท้ในจำนวนปศุสัตว์ทั้งหมดคือ 80% ข้อผิดพลาดในการสุ่มตัวอย่างที่มีความน่าจะเป็นของความมั่นใจ P = 0.954 กลายเป็น 0.2 กก. สำหรับโคพันธุ์แท้ 1%

ดังนั้น ขอบเขตภายในที่ค่าเฉลี่ยทั่วไปสามารถเป็นได้

ประสิทธิภาพจะเป็น 9.8<х <10,2; для генеральной доли скота -79 <Р <81.

สรุป: ด้วยความน่าจะเป็น 0.954 เป็นที่ถกเถียงกันอยู่ว่าความแตกต่างระหว่างผลผลิตเฉลี่ยที่คัดเลือกมาของโคและผลผลิตทั่วไปคือ 0.2 กก. ขีด จำกัด ของผลผลิตนมเฉลี่ยต่อวันคือ 9.8 และ 10.2 กก. ส่วนแบ่ง (น้ำหนักเฉพาะ) ของโคพันธุ์แท้ในสถานประกอบการของภูมิภาคมีตั้งแต่ 79 ถึง 81% ข้อผิดพลาดในการประเมินไม่เกิน 1%

โต๊ะ 40

การคำนวณข้อผิดพลาดในการสุ่มตัวอย่างแบบจุดและช่วง

ในการจัดกลุ่มตัวอย่าง สิ่งสำคัญคือต้องกำหนดขนาดที่ต้องการ (n) หลังขึ้นอยู่กับความผันแปรของหน่วยของประชากรที่ทำการสำรวจ ยิ่งค่าสุ่มมากเท่าไร ขนาดของตัวอย่างก็จะยิ่งมากขึ้นเท่านั้น ข้อเสนอแนะระหว่างขนาดกลุ่มตัวอย่างและข้อผิดพลาดเล็กน้อย ความปรารถนาที่จะได้รับข้อผิดพลาดที่น้อยกว่านั้นต้องเพิ่มขนาดของตัวอย่าง

ขนาดตัวอย่างที่ต้องการจะพิจารณาจากสูตรสำหรับข้อผิดพลาดในการสุ่มตัวอย่างส่วนเพิ่ม (e) ด้วยระดับความน่าจะเป็นที่กำหนด (P) โดยการแปลงทางคณิตศาสตร์ จะได้สูตรการคำนวณขนาดตัวอย่าง (ตารางที่ 41)

ตารางที่ 41

การคำนวณขนาดตัวอย่างที่ต้องการ _

ควรสังเกตว่าทุกอย่างที่ระบุไว้เกี่ยวกับการประมาณทางสถิติขึ้นอยู่กับสมมติฐานที่ว่าประชากรกลุ่มตัวอย่างซึ่งเป็นพารามิเตอร์ที่ใช้ในการประเมินนั้นได้มาโดยใช้วิธีการคัดเลือก (วิธีการ) ที่ให้ความน่าจะเป็นในการสุ่มตัวอย่าง

ในเวลาเดียวกัน เมื่อเลือกระดับความเชื่อมั่นของการประมาณการ เราควรได้รับคำแนะนำจากหลักการที่ว่าการเลือกระดับนั้นไม่ใช่ปัญหาทางคณิตศาสตร์ แต่ถูกกำหนดโดยปัญหาเฉพาะที่กำลังแก้ไข พิจารณาตัวอย่างสนับสนุนข้างต้น

ตัวอย่าง.สมมติว่าที่องค์กรสองแห่ง ความน่าจะเป็นในการผลิตผลิตภัณฑ์สำเร็จรูป (คุณภาพสูง) คือ P = 0.999 นั่นคือ ความน่าจะเป็นที่จะได้ผลิตภัณฑ์ที่มีข้อบกพร่องจะเท่ากับ a = 0.001 เป็นไปได้ไหมภายใต้กรอบการพิจารณาทางคณิตศาสตร์โดยไม่สนใจธรรมชาติของผลิตภัณฑ์ที่จะตัดสินใจว่ามีความเป็นไปได้สูงที่จะเกิดการขาดแคลน a = 0.001 หรือไม่ สมมติว่าบริษัทหนึ่งผลิตเครื่องหว่านเมล็ด และบริษัทที่สอง - เครื่องบินสำหรับการแปรรูปพืชผล หากมีข้อบกพร่องหนึ่งตัวต่อผู้เพาะเมล็ด 1,000 คน สิ่งนี้สามารถทนได้เพราะการหลอมใหม่ 0.1% ของผู้เพาะเมล็ดมีราคาถูกกว่าการปรับโครงสร้างของกระบวนการทางเทคโนโลยี หากมีเครื่องบินชำรุดหนึ่งลำต่อเครื่องบิน 1,000 ลำ สิ่งนี้จะนำไปสู่ผลกระทบที่ร้ายแรงในระหว่างการดำเนินการอย่างแน่นอน ดังนั้น ในกรณีแรก ความน่าจะเป็นที่จะได้แต่งงาน เอ = สามารถยอมรับ 0.001 ในกรณีที่สอง - ไม่ใช่ ด้วยเหตุผลนี้ การเลือกความน่าจะเป็นของความเชื่อมั่นในการคำนวณโดยทั่วไปและในการคำนวณค่าประมาณโดยเฉพาะอย่างยิ่ง ควรดำเนินการบนพื้นฐานของเงื่อนไขเฉพาะของปัญหา

อาจจำเป็นต้องคำนวณขีดจำกัดความเชื่อมั่นหนึ่งหรือสองขีดจำกัด ทั้งนี้ขึ้นอยู่กับวัตถุประสงค์ของการศึกษา หากคุณลักษณะของปัญหาที่กำลังแก้ไขต้องการการตั้งค่าขอบเขตเพียงขอบเขตเดียว บนหรือล่าง คุณสามารถตรวจสอบให้แน่ใจว่าความน่าจะเป็นที่จะตั้งค่าขอบเขตนี้จะสูงกว่าเมื่อมีการระบุขอบเขตทั้งสองสำหรับค่าสัมประสิทธิ์ความเชื่อมั่นเดียวกัน 1

ให้กำหนดขีดจำกัดความมั่นใจด้วยความน่าจะเป็น P = 0.95 นั่นคือ

ใน 95% ของกรณี ค่าเฉลี่ยทั่วไป (x) จะต้องไม่น้อยกว่าค่าที่ต่ำกว่า

ช่วงความเชื่อมั่น x ™ ​​- x "m และไม่เกินความมั่นใจสูงสุด

ช่วงเวลา Xup - = x + ในกรณีนี้ เฉพาะด้วยความน่าจะเป็น a = 0.05 (หรือ 5%) ค่าเฉลี่ยทั่วไปสามารถเกินขอบเขตที่กำหนด เนื่องจากการกระจายของ X นั้นสมมาตร ดังนั้นครึ่งหนึ่งของระดับนี้

ความน่าจะเป็น นั่นคือ 2.5% จะลดลงในกรณีที่ x (x ™ - และครึ่งหลัง - กรณีที่เมื่อ x ^ x "^ - จากนี้เป็นต้นไปความน่าจะเป็นที่ค่าเฉลี่ยทั่วไปอาจน้อยกว่า ค่าสูงสุด

ขีด จำกัด ความเชื่อมั่นของ Khwei "-, เท่ากับ 0.975 (นั่นคือ 0.95 + 0.025) ดังนั้นเงื่อนไขจึงถูกสร้างขึ้นเมื่อเราละเลยด้วยความมั่นใจสองขีด

ค่าของ x น้อยกว่า x "" *. และมากกว่าหรือ Xeerx โทร

ขีด จำกัด ความมั่นใจเพียงขีดเดียวเท่านั้น ตัวอย่างเช่น Хด้านบน เราละเลยเฉพาะส่วนที่ ~ เกินขีด จำกัด นี้ สำหรับค่าสัมประสิทธิ์ความเชื่อมั่น X ที่เท่ากัน ระดับนัยสำคัญ a ที่นี่จะน้อยกว่าสองเท่า

หากคำนวณเฉพาะค่าคุณลักษณะที่เกิน

(หรือในทางกลับกันไม่เกิน) ค่าของพารามิเตอร์ที่ต้องการ x ช่วงความเชื่อมั่นเรียกว่าด้านเดียว หากค่าที่พิจารณาถูกจำกัดทั้งสองด้าน ช่วงความเชื่อมั่นจะเรียกว่าสองด้าน จากที่กล่าวมาข้างต้น ถือว่าสมมติฐานและเกณฑ์จำนวนหนึ่ง โดยเฉพาะการทดสอบ X ของนักเรียน ควรพิจารณาเป็นแบบด้านเดียวและสองด้าน ดังนั้น ภายใต้สมมติฐานสองด้าน ระดับนัยสำคัญของค่า X เดียวกันจะสูงเป็นสองเท่าของค่าแบบด้านเดียว หากเราต้องการรักษาระดับนัยสำคัญ (และระดับความเชื่อมั่น) ให้เท่าๆ กับสมมติฐานด้านเดียว เช่นเดียวกับสมมติฐานสองด้าน ค่าของ X ก็ควรจะลดน้อยลง คุณลักษณะนี้ถูกนำมาพิจารณาเมื่อรวบรวมตารางมาตรฐานของเกณฑ์ X-Student (ภาคผนวก 1)

เป็นที่ทราบกันดีว่าจากมุมมองเชิงปฏิบัติ ช่วงความเชื่อมั่นของค่าที่เป็นไปได้ของค่าเฉลี่ยทั่วไปที่น่าสนใจนั้นไม่มากนัก แต่ค่าสูงสุดและค่าต่ำสุดเหล่านั้นมากหรือน้อยกว่าที่ค่าเฉลี่ยทั่วไปไม่สามารถมีได้ ความน่าจะเป็นที่กำหนด (ความมั่นใจ) ในสถิติทางคณิตศาสตร์จะเรียกว่าการรับประกันสูงสุดและค่าเฉลี่ยต่ำสุดที่รับประกัน แสดงถึงพารามิเตอร์ที่มีชื่อ

ตามลำดับ ผ่าน และ x ™ คุณสามารถเขียน: ХШ ™ = x +; xship = x~

เมื่อคำนวณค่าสูงสุดและต่ำสุดที่รับประกันของค่าเฉลี่ยทั่วไปเป็นขอบเขตของช่วงความเชื่อมั่นด้านเดียวในสูตรข้างต้น ค่า 1 ถือเป็นเกณฑ์ด้านเดียว

ตัวอย่าง.สำหรับสถานที่สุ่มตัวอย่าง 20 แห่ง ผลผลิตเฉลี่ยของหัวบีตน้ำตาลคือ 300 นิวตัน/เฮกตาร์ ค่าเฉลี่ยตัวอย่างนี้แสดงลักษณะที่สอดคล้องกัน

พารามิเตอร์ประชากร (x) ที่มีข้อผิดพลาด 10 n/ha จากการคัดเลือกของการประมาณการ ผลผลิตเฉลี่ยทั่วไปอาจมากกว่าหรือน้อยกว่าค่าเฉลี่ยตัวอย่าง x = 300 ด้วยความน่าจะเป็นที่ P = 0.95 เป็นที่ถกเถียงกันอยู่ว่าพารามิเตอร์ที่ต้องการจะไม่เกิน ХШ "= 300 + 1.73 x10 = 317.3 q / เฮกแตร์

ค่า 1 ใช้สำหรับจำนวนองศาอิสระ ^ = 20-1 ที่มีขอบเขตวิกฤตด้านเดียวและระดับนัยสำคัญ เอ = 0.05 (ภาคผนวก 1) ดังนั้น ด้วยความน่าจะเป็น P = 0.95 ระดับสูงสุดที่รับประกันได้ของผลผลิตเฉลี่ยทั่วไปอยู่ที่ 317 n / ha นั่นคือภายใต้เงื่อนไขที่เอื้ออำนวยผลผลิตเฉลี่ยของหัวบีทน้ำตาลไม่เกินค่าที่ระบุ

ในบางสาขาของความรู้ (เช่น ในวิทยาศาสตร์ธรรมชาติ) ทฤษฎีการประเมินจะด้อยกว่าทฤษฎีการทดสอบสมมติฐานทางสถิติ ในทางเศรษฐศาสตร์ วิธีการประเมินทางสถิติมีบทบาทสำคัญในการตรวจสอบความน่าเชื่อถือของผลการวิจัย เช่นเดียวกับในการคำนวณเชิงปฏิบัติต่างๆ ประการแรก เรื่องนี้เกี่ยวข้องกับการใช้การประมาณแบบจุดของประชากรทางสถิติที่อยู่ระหว่างการศึกษา การเลือกค่าประมาณที่ดีที่สุดคือปัญหาหลักของการประมาณค่าแบบจุด ความเป็นไปได้ของตัวเลือกดังกล่าวเกิดจากความรู้เกี่ยวกับคุณสมบัติพื้นฐาน (ข้อกำหนด) ของการประมาณทางสถิติ

) ปัญหาทางสถิติทางคณิตศาสตร์

ให้เราสมมติว่ามีกลุ่มพาราเมตริกของการแจกแจงความน่าจะเป็น (เพื่อความง่าย เราจะพิจารณาการแจกแจงของตัวแปรสุ่มและกรณีของพารามิเตอร์หนึ่งตัว) นี่คือพารามิเตอร์ตัวเลขที่ไม่ทราบค่า จำเป็นต้องประเมินโดยตัวอย่างค่าที่มีอยู่ที่สร้างโดยการแจกแจงนี้

การประเมินมีสองประเภทหลัก: ประมาณการจุดและ ช่วงความเชื่อมั่น.

การประมาณค่าจุด

การประมาณค่าจุดเป็นประเภทของการประมาณค่าทางสถิติโดยที่ค่าของพารามิเตอร์ที่ไม่รู้จักถูกประมาณด้วยตัวเลขตัวเดียว นั่นคือคุณต้องระบุฟังก์ชันของตัวอย่าง (สถิติ)

,

ซึ่งค่าจะถือเป็นค่าประมาณค่าที่ไม่ทราบค่าที่แท้จริง

วิธีการทั่วไปในการสร้างการประมาณค่าพารามิเตอร์แบบจุด ได้แก่ วิธีความน่าจะเป็นสูงสุด วิธีโมเมนต์ วิธีควอนไทล์

ด้านล่างนี้คือคุณสมบัติบางอย่างที่การประมาณการแบบชี้อาจมีหรือไม่มีก็ได้

ความสามารถในการละลาย

ข้อกำหนดที่ชัดเจนที่สุดประการหนึ่งสำหรับการประมาณค่าแบบจุดคือเราสามารถคาดหวังค่าประมาณที่ดีพอสมควรกับค่าที่แท้จริงของพารามิเตอร์สำหรับค่าขนาดใหญ่เพียงพอของขนาดกลุ่มตัวอย่าง ซึ่งหมายความว่าการประมาณการจะต้องมาบรรจบกับมูลค่าที่แท้จริงที่ คุณสมบัติการประเมินนี้เรียกว่า ความสามารถในการละลาย. เนื่องจากเรากำลังพูดถึงตัวแปรสุ่มซึ่งมีการบรรจบกันหลายประเภท คุณสมบัตินี้จึงสามารถกำหนดได้อย่างแม่นยำด้วยวิธีต่างๆ ดังนี้:

เมื่อเพียงแค่ใช้คำว่า ความสามารถในการละลายแล้วเรามักจะหมายถึงความสม่ำเสมอที่อ่อนแอ กล่าวคือ การบรรจบกันในความน่าจะเป็น

เงื่อนไขความสอดคล้องเป็นข้อกำหนดในทางปฏิบัติสำหรับการประมาณการทั้งหมดที่ใช้ในทางปฏิบัติ ไม่ค่อยมีการใช้ค่าประมาณที่ไม่สอดคล้องกัน

ความไม่มีอคติและความไม่เอนเอียงเชิงซีมโทติค

ค่าประมาณพารามิเตอร์เรียกว่า ไม่ลำเอียงหากการคาดหมายทางคณิตศาสตร์เท่ากับค่าที่แท้จริงของพารามิเตอร์โดยประมาณ:

.

สภาพที่อ่อนแอกว่าคือ ความไม่เอนเอียงเชิงซีมโทติคซึ่งหมายความว่าการคาดหมายทางคณิตศาสตร์ของการประมาณการมาบรรจบกันกับค่าจริงของพารามิเตอร์ด้วยการเพิ่มขนาดกลุ่มตัวอย่าง:

.

ความเป็นกลางเป็นคุณสมบัติที่แนะนำของตัวประมาณ อย่างไรก็ตาม ไม่ควรประเมินความสำคัญของมันมากเกินไป ส่วนใหญ่มักจะมีการประมาณค่าพารามิเตอร์ที่ไม่เอนเอียง จากนั้นเราพยายามพิจารณาเฉพาะพารามิเตอร์เหล่านั้นเท่านั้น อย่างไรก็ตาม อาจมีปัญหาทางสถิติบางอย่างที่ไม่มีค่าประมาณที่เป็นกลาง ตัวอย่างที่มีชื่อเสียงที่สุดคือ: พิจารณาการแจกแจงแบบปัวซองด้วยพารามิเตอร์และตั้งค่าปัญหาของการประมาณค่าพารามิเตอร์ สามารถพิสูจน์ได้ว่าไม่มีตัวประมาณที่เป็นกลางสำหรับปัญหานี้

การเปรียบเทียบเกรดและประสิทธิภาพ

ในการเปรียบเทียบค่าประมาณที่แตกต่างกันของพารามิเตอร์เดียวกันจะใช้วิธีการต่อไปนี้: เลือกบางส่วน ฟังก์ชั่นความเสี่ยงซึ่งวัดค่าเบี่ยงเบนของการประมาณค่าจากค่าที่แท้จริงของพารามิเตอร์ และค่าที่ดีที่สุดถือเป็นค่าที่ฟังก์ชันนี้ใช้ค่าที่น้อยกว่า

ส่วนใหญ่แล้ว การคาดหมายทางคณิตศาสตร์ของค่าเบี่ยงเบนกำลังสองของการประมาณค่าจากค่าจริงถือเป็นฟังก์ชันความเสี่ยง

สำหรับตัวประมาณที่ไม่เอนเอียง นี่เป็นเพียงความแปรปรวน

มีขอบเขตต่ำกว่าในฟังก์ชันความเสี่ยงที่เรียกว่า แครมเมอร์-ราวอสมการ.

(ไม่เอนเอียง) ตัวประมาณที่ตรงกับขอบเขตล่างนี้ (เช่น มีความแปรปรวนน้อยที่สุดที่เป็นไปได้) เรียกว่า มีประสิทธิภาพ. อย่างไรก็ตาม การมีอยู่ของการประมาณที่มีประสิทธิภาพนั้นเป็นข้อกำหนดที่ค่อนข้างเข้มงวดสำหรับปัญหา ซึ่งไม่ได้เป็นเช่นนั้นเสมอไป

สภาพที่อ่อนแอกว่าคือ ประสิทธิภาพเชิงซีมโทติคซึ่งหมายความว่าอัตราส่วนของความแปรปรวนของการประมาณที่ไม่เอนเอียงต่อขอบเขต Cramer-Rao ที่ต่ำกว่ามีแนวโน้มที่จะเป็นหนึ่งเดียวกันที่

โปรดทราบว่าภายใต้สมมติฐานที่กว้างเพียงพอเกี่ยวกับการแจกแจงภายใต้การศึกษา วิธีความน่าจะเป็นสูงสุดจะให้การประมาณค่าพารามิเตอร์ที่มีประสิทธิภาพแบบไม่มีซีมโทติคัล และหากมีการประมาณที่มีประสิทธิผล ก็จะให้ค่าประมาณที่มีประสิทธิภาพ

สถิติที่เพียงพอ

สถิติเรียกว่า เพียงพอสำหรับพารามิเตอร์ถ้าการแจกแจงแบบมีเงื่อนไขของตัวอย่างที่มีเงื่อนไขว่าไม่ขึ้นกับพารามิเตอร์ทั้งหมด

ความสำคัญของแนวคิดเรื่องสถิติที่เพียงพอมีสาเหตุดังนี้ การอนุมัติ. หากเป็นสถิติที่เพียงพอและเป็นการประมาณค่าพารามิเตอร์ที่เป็นกลาง การคาดหมายแบบมีเงื่อนไขก็จะเป็นการประมาณค่าพารามิเตอร์ที่เป็นกลางเช่นกัน และความแปรปรวนของพารามิเตอร์จะน้อยกว่าหรือเท่ากับความแปรปรวนของการประมาณค่าเดิม

จำได้ว่าการคาดหมายแบบมีเงื่อนไขเป็นตัวแปรสุ่มที่เป็นฟังก์ชันของ ดังนั้น ในกลุ่มของผู้ประมาณที่ไม่เอนเอียง ก็เพียงพอแล้วที่จะพิจารณาเฉพาะตัวที่เป็นฟังก์ชันของสถิติที่เพียงพอ (โดยมีเงื่อนไขว่าสถิติดังกล่าวสำหรับปัญหาที่กำหนด)

การประมาณค่าพารามิเตอร์ที่มีประสิทธิภาพ (เป็นกลาง) เป็นสถิติที่เพียงพอเสมอ

เราสามารถพูดได้ว่าสถิติที่เพียงพอประกอบด้วยข้อมูลทั้งหมดเกี่ยวกับพารามิเตอร์โดยประมาณที่มีอยู่ในตัวอย่าง

ค่าประมาณทางสถิติของพารามิเตอร์ของประชากรทั่วไป สมมติฐานทางสถิติ

บรรยาย 16

ให้จำเป็นต้องศึกษาเครื่องหมายเชิงปริมาณของประชากรทั่วไป สมมติว่า จากการพิจารณาทางทฤษฎี เป็นไปได้ที่จะกำหนดว่าการแจกแจงแบบใดมีลักษณะเฉพาะ สิ่งนี้ทำให้เกิดปัญหาในการประมาณค่าพารามิเตอร์ที่กำหนดการกระจายนี้ ตัวอย่างเช่น หากทราบว่าลักษณะที่อยู่ระหว่างการศึกษามีการกระจายในประชากรทั่วไปตามกฎปกติ ก็จำเป็นต้องประมาณ (โดยประมาณ) ความคาดหวังทางคณิตศาสตร์และค่าเบี่ยงเบนมาตรฐาน เนื่องจากพารามิเตอร์ทั้งสองนี้กำหนดการกระจายแบบปกติอย่างสมบูรณ์ . หากมีเหตุผลที่จะเชื่อว่าคุณลักษณะนี้มีการกระจายแบบปัวซอง ก็จำเป็นต้องประมาณค่าพารามิเตอร์ ซึ่งจะกำหนดการกระจายนี้

โดยปกติในการแจกแจง ผู้วิจัยจะมีเพียงข้อมูลตัวอย่าง เช่น ค่าของลักษณะเชิงปริมาณที่ได้รับจากการสังเกต (ต่อไปนี้จะถือว่าการสังเกตเป็นอิสระ) ผ่านข้อมูลเหล่านี้และแสดงค่าพารามิเตอร์โดยประมาณ

พิจารณาเป็นค่าของตัวแปรสุ่มอิสระ เราสามารถพูดได้ว่าการหาค่าประมาณทางสถิติของพารามิเตอร์ที่ไม่รู้จักของการแจกแจงทางทฤษฎีหมายถึงการค้นหาฟังก์ชันของตัวแปรสุ่มที่สังเกตได้ ซึ่งให้ค่าประมาณของพารามิเตอร์โดยประมาณ ตัวอย่างเช่น ดังที่แสดงด้านล่าง ในการประมาณความคาดหวังทางคณิตศาสตร์ของการแจกแจงแบบปกติ ฟังก์ชัน (ค่าเฉลี่ยเลขคณิตของค่าที่สังเกตได้ของคุณลักษณะ) จะถูกใช้:

.

ดังนั้น, การประเมินทางสถิติพารามิเตอร์ที่ไม่รู้จักของการแจกแจงทางทฤษฎีเรียกว่าฟังก์ชันของตัวแปรสุ่มที่สังเกตได้ ค่าประมาณทางสถิติของพารามิเตอร์ที่ไม่รู้จักของประชากรทั่วไปซึ่งเขียนเป็นตัวเลขเดียวเรียกว่า จุด. พิจารณาการประมาณการจุดต่อไปนี้: ลำเอียงและไม่ลำเอียง มีประสิทธิภาพและสม่ำเสมอ

เพื่อให้การประมาณการทางสถิติให้ค่าประมาณที่ "ดี" ของพารามิเตอร์ที่ประมาณการ พารามิเตอร์เหล่านี้ต้องเป็นไปตามข้อกำหนดบางประการ มาระบุข้อกำหนดเหล่านี้กัน

ให้มีค่าประมาณทางสถิติของพารามิเตอร์ที่ไม่รู้จักของการแจกแจงทางทฤษฎี สมมติว่าเมื่อสุ่มตัวอย่างปริมาตร จะพบค่าประมาณ ลองทำการทดลองซ้ำ นั่นคือ เราจะแยกตัวอย่างที่มีขนาดเดียวกันออกจากประชากรทั่วไป และใช้ข้อมูลของมัน เราจะหาค่าประมาณ ฯลฯ ทำการทดลองซ้ำหลายๆ ครั้ง เราได้ตัวเลข ซึ่งโดยทั่วไปแล้วจะมีความแตกต่างกัน ดังนั้นการประมาณการจึงถือได้ว่าเป็นตัวแปรสุ่มและตัวเลข เป็นค่าที่เป็นไปได้

เป็นที่ชัดเจนว่าหากค่าประมาณให้ค่าโดยประมาณที่มีส่วนเกิน แต่ละจำนวนที่พบจากข้อมูลของกลุ่มตัวอย่างจะมากกว่าค่าที่แท้จริงของ ดังนั้น ในกรณีนี้ ทางคณิตศาสตร์ (ค่าเฉลี่ย) ของตัวแปรสุ่มจะมากกว่า นั่นคือ แน่นอน ถ้ามันให้ค่าโดยประมาณพร้อมข้อเสียแล้วล่ะก็ .


ดังนั้น การใช้การประมาณทางสถิติ ซึ่งการคาดหมายทางคณิตศาสตร์ซึ่งไม่เท่ากับค่าพารามิเตอร์ที่ประมาณไว้ ทำให้เกิดข้อผิดพลาดอย่างเป็นระบบ (หนึ่งเครื่องหมาย) ด้วยเหตุผลนี้ จึงเป็นเรื่องปกติที่จะกำหนดให้การคาดหมายทางคณิตศาสตร์ของการประมาณค่าเท่ากับค่าพารามิเตอร์ที่ประมาณการไว้ แม้ว่าการปฏิบัติตามข้อกำหนดนี้โดยทั่วไปแล้วจะไม่ขจัดข้อผิดพลาด (ค่าบางค่ามากกว่าและค่าอื่นๆ น้อยกว่า ) ข้อผิดพลาดของสัญญาณต่างๆ จะเกิดขึ้นบ่อยเท่าๆ กัน อย่างไรก็ตาม การปฏิบัติตามข้อกำหนดจะรับประกันความเป็นไปไม่ได้ที่จะได้รับข้อผิดพลาดอย่างเป็นระบบ นั่นคือ ขจัดข้อผิดพลาดอย่างเป็นระบบ

ไม่ลำเอียงเรียกว่าการประมาณค่าทางสถิติ (ข้อผิดพลาด) การคาดหมายทางคณิตศาสตร์ซึ่งเท่ากับค่าพารามิเตอร์ที่ประมาณไว้สำหรับขนาดตัวอย่างใดๆ นั่นคือ

พลัดถิ่นเรียกว่าการประมาณทางสถิติ การคาดหมายทางคณิตศาสตร์ซึ่งไม่เท่ากับค่าพารามิเตอร์ที่ประมาณไว้สำหรับขนาดกลุ่มตัวอย่างใดๆ กล่าวคือ

อย่างไรก็ตาม มันจะเป็นความผิดพลาดที่จะสมมติว่าการประมาณที่ไม่เอนเอียงจะให้ค่าประมาณที่ดีของพารามิเตอร์โดยประมาณเสมอ อันที่จริง ค่าที่เป็นไปได้อาจกระจัดกระจายอยู่รอบๆ ค่าเฉลี่ย กล่าวคือ ความแปรปรวนอาจมีนัยสำคัญ ในกรณีนี้ การประมาณค่าที่พบจากข้อมูลของตัวอย่างหนึ่งตัวอย่าง อาจกลายเป็นว่าห่างไกลจากค่าเฉลี่ยมาก และด้วยเหตุนี้จึงมาจากค่าพารามิเตอร์โดยประมาณเอง ดังนั้น หากเป็นค่าโดยประมาณ เราจะทำผิดพลาดครั้งใหญ่ อย่างไรก็ตาม หากค่าความแปรปรวนมีค่าน้อย ความเป็นไปได้ที่จะเกิดข้อผิดพลาดขนาดใหญ่จะถูกยกเว้น ด้วยเหตุผลนี้ ความต้องการด้านประสิทธิภาพจึงถูกกำหนดไว้ในการประเมินทางสถิติ

มีประสิทธิภาพเรียกว่าค่าประมาณทางสถิติ ซึ่ง (สำหรับขนาดตัวอย่างที่กำหนด ) มีความแปรปรวนน้อยที่สุดที่เป็นไปได้

ร่ำรวยเรียกว่าการประมาณทางสถิติซึ่งมีแนวโน้มว่าจะเป็นค่าพารามิเตอร์โดยประมาณ กล่าวคือ ความเท่าเทียมกันเป็นจริง:

.

ตัวอย่างเช่น หากความแปรปรวนของตัวประมาณที่ไม่เอนเอียงที่มีแนวโน้มเป็นศูนย์ ดังนั้นตัวประมาณดังกล่าวกลับกลายเป็นว่าสอดคล้องกัน

พิจารณาคำถามที่ว่าคุณลักษณะของตัวอย่างใดประเมินค่าเฉลี่ยและความแปรปรวนทั่วไปได้ดีที่สุดในแง่ของความไม่เอนเอียง ประสิทธิภาพ และความสม่ำเสมอ

ให้ศึกษาประชากรทั่วไปที่ไม่ต่อเนื่องโดยคำนึงถึงคุณลักษณะเชิงปริมาณบางอย่าง

มัธยมศึกษาทั่วไปเรียกว่าค่าเฉลี่ยเลขคณิตของค่าคุณลักษณะของประชากรทั่วไป คำนวณโดยสูตร:

§ - หากค่าทั้งหมดของเครื่องหมายของประชากรทั่วไปของปริมาตรต่างกัน

§ – ถ้าค่าเครื่องหมายของประชากรทั่วไปมีความถี่ ตามลำดับ และ . นั่นคือค่าเฉลี่ยทั่วไปคือค่าเฉลี่ยถ่วงน้ำหนักของค่าลักษณะโดยมีน้ำหนักเท่ากับความถี่ที่สอดคล้องกัน

ความคิดเห็น: ให้ประชากรของไดรฟ์ข้อมูลมีวัตถุที่มีค่าแอตทริบิวต์ต่างกัน ลองนึกภาพว่ามีการสุ่มเลือกวัตถุหนึ่งชิ้นจากคอลเล็กชันนี้ ความน่าจะเป็นที่อ็อบเจ็กต์ที่มีค่าคุณสมบัติ เช่น จะถูกดึงออกมาจะเท่ากับอย่างชัดเจน วัตถุอื่นๆ สามารถดึงออกมาด้วยความน่าจะเป็นเท่ากัน ดังนั้น ค่าของคุณลักษณะถือได้ว่าเป็นตัวแปรสุ่ม ซึ่งค่าที่เป็นไปได้มีความน่าจะเป็นเท่ากัน . ในกรณีนี้ การหาความคาดหวังทางคณิตศาสตร์ไม่ใช่เรื่องยาก:

ดังนั้น หากเราพิจารณาเครื่องหมายที่ตรวจสอบแล้วของประชากรทั่วไปเป็นตัวแปรสุ่ม การคาดหมายทางคณิตศาสตร์ของเครื่องหมายจะเท่ากับค่าเฉลี่ยทั่วไปของเครื่องหมายนี้: เราได้รับข้อสรุปนี้โดยสมมติว่าวัตถุทั้งหมดของประชากรทั่วไปมีค่าคุณลักษณะต่างกัน ผลลัพธ์เดียวกันจะได้รับหากเราคิดว่าประชากรทั่วไปประกอบด้วยหลายอ็อบเจ็กต์ที่มีค่าแอททริบิวต์เหมือนกัน

สรุปผลลัพธ์ที่ได้ให้กับประชากรทั่วไปด้วยการแจกแจงแอตทริบิวต์อย่างต่อเนื่อง เรากำหนดค่าเฉลี่ยทั่วไปเป็นความคาดหวังทางคณิตศาสตร์ของแอตทริบิวต์: .

ให้แยกตัวอย่างปริมาตรเพื่อศึกษาประชากรทั่วไปโดยคำนึงถึงแอตทริบิวต์เชิงปริมาณ

ค่าเฉลี่ยตัวอย่างเรียกว่า ค่าเฉลี่ยเลขคณิตของค่าคุณลักษณะของประชากรกลุ่มตัวอย่าง คำนวณโดยสูตร:

§ - ถ้าค่าทั้งหมดของเครื่องหมายของกลุ่มตัวอย่างที่มีปริมาตรต่างกัน

§ – หากค่าคุณลักษณะของชุดการสุ่มตัวอย่างมี ความถี่ ตามลำดับ และ . นั่นคือค่าเฉลี่ยตัวอย่างคือค่าเฉลี่ยถ่วงน้ำหนักของค่าลักษณะโดยมีน้ำหนักเท่ากับความถี่ที่สอดคล้องกัน

ความคิดเห็น: ค่าเฉลี่ยตัวอย่างที่พบจากข้อมูลของตัวอย่างหนึ่งตัวอย่างเป็นตัวเลขที่แน่นอน หากเราแยกตัวอย่างอื่นๆ ที่มีขนาดเท่ากันจากประชากรทั่วไปเดียวกัน ค่าเฉลี่ยของกลุ่มตัวอย่างจะเปลี่ยนจากกลุ่มตัวอย่างเป็นกลุ่มตัวอย่าง ดังนั้น ค่าเฉลี่ยตัวอย่างถือได้ว่าเป็นตัวแปรสุ่ม ดังนั้น เราสามารถพูดถึงการแจกแจง (เชิงทฤษฎีและเชิงประจักษ์) ของค่าเฉลี่ยตัวอย่างและลักษณะเชิงตัวเลขของการแจกแจงนี้ โดยเฉพาะอย่างยิ่ง ค่าเฉลี่ยและความแปรปรวนของการแจกแจงตัวอย่าง .

นอกจากนี้ หากไม่ทราบค่าเฉลี่ยทั่วไปและจำเป็นต้องประมาณจากข้อมูลตัวอย่าง ค่าเฉลี่ยตัวอย่างจะถูกนำมาเป็นค่าประมาณของค่าเฉลี่ยทั่วไป ซึ่งเป็นค่าประมาณที่เป็นกลางและสม่ำเสมอ (เราขอเสนอให้พิสูจน์ข้อความนี้ใน เป็นเจ้าของ). จากที่กล่าวมาข้างต้นว่าถ้าตัวอย่างหลายตัวอย่างที่มีปริมาตรมากเพียงพอจากประชากรทั่วไปเดียวกันถูกใช้เพื่อหาค่าเฉลี่ยตัวอย่าง พวกมันก็จะมีค่าเท่ากันโดยประมาณ นี่คือคุณสมบัติ ความคงตัวของค่าเฉลี่ยตัวอย่าง.

โปรดทราบว่าหากความแปรปรวนของประชากรสองกลุ่มเท่ากัน ความใกล้ชิดของกลุ่มตัวอย่างจะหมายถึงกลุ่มตัวอย่างทั่วไปไม่ได้ขึ้นอยู่กับอัตราส่วนของขนาดกลุ่มตัวอย่างต่อขนาดของประชากรทั่วไป ขึ้นอยู่กับขนาดกลุ่มตัวอย่าง ยิ่งขนาดกลุ่มตัวอย่างใหญ่ ค่าเฉลี่ยตัวอย่างจะแตกต่างจากขนาดตัวอย่างทั่วไปน้อยลง ตัวอย่างเช่น หากเลือกวัตถุ 1% จากชุดหนึ่ง และเลือกวัตถุ 4% จากชุดอื่น และปริมาตรของตัวอย่างแรกกลายเป็นขนาดใหญ่กว่าชุดที่สอง ค่าเฉลี่ยตัวอย่างแรกจะต่างกันน้อยกว่า ค่าเฉลี่ยทั่วไปที่สอดคล้องกันกว่าวินาที