Batas kesalahan rumus nilai rata-rata. Kesalahan sampling rata-rata dan marginal

Untuk mengkarakterisasi keandalan indikator sampel, perbedaan dibuat antara kesalahan sampling rata-rata dan marginal, yang hanya merupakan karakteristik pengamatan sampel. Indikator-indikator ini mencerminkan perbedaan antara sampel dan indikator umum yang sesuai.

Kesalahan sampel rata-rata ditentukan terutama oleh ukuran sampel dan tergantung pada struktur dan tingkat variasi sifat yang diteliti.

Arti dari mean sampling error adalah sebagai berikut. Nilai yang dihitung dari fraksi sampel (w) dan rata-rata sampel () pada dasarnya adalah variabel acak. Mereka dapat mengambil nilai yang berbeda tergantung pada unit spesifik mana dari populasi umum yang termasuk dalam sampel. Misalnya, jika, ketika menentukan usia rata-rata karyawan suatu perusahaan, satu sampel mencakup lebih banyak orang muda, dan yang lainnya - pekerja yang lebih tua, maka cara sampel dan kesalahan pengambilan sampel akan berbeda. Rata-rata kesalahan pengambilan sampel ditentukan dengan rumus:

(27) atau - pengambilan sampel ulang. (28)

Dimana: adalah rata-rata kesalahan sampling;

adalah simpangan baku suatu sifat dalam populasi umum;

n adalah ukuran sampel.

Nilai kesalahan menunjukkan bagaimana nilai rata-rata fitur, yang ditetapkan oleh sampel, berbeda dari nilai sebenarnya dari fitur dalam populasi umum.

Dari rumus berikut bahwa kesalahan pengambilan sampel berbanding lurus dengan standar deviasi dan berbanding terbalik dengan akar kuadrat dari jumlah unit dalam sampel. Ini berarti, misalnya, semakin besar penyebaran nilai-nilai fitur dalam populasi umum, yaitu semakin besar dispersi, semakin besar ukuran sampel yang seharusnya jika kita ingin mempercayai hasil survei sampel. . Sebaliknya, dengan varians yang kecil, seseorang dapat membatasi diri pada sejumlah kecil populasi sampel. Kesalahan pengambilan sampel kemudian akan berada dalam batas yang dapat diterima.

Karena ukuran populasi umum N selama pengambilan sampel berkurang selama pemilihan yang tidak berulang, faktor tambahan dimasukkan dalam rumus untuk menghitung kesalahan pengambilan sampel rata-rata

(satu- ). Rumus untuk kesalahan pengambilan sampel rata-rata mengambil bentuk berikut:

Kesalahan rata-rata lebih kecil untuk pengambilan sampel yang tidak berulang, yang membuatnya lebih banyak digunakan.

Kesimpulan praktis memerlukan karakterisasi populasi umum berdasarkan hasil sampel. Sarana dan proporsi sampel diterapkan pada populasi umum, dengan mempertimbangkan batas kemungkinan kesalahannya, dan dengan tingkat probabilitas yang menjaminnya. Mengingat tingkat probabilitas tertentu, nilai deviasi yang dinormalisasi dipilih dan kesalahan sampling marginal ditentukan.

Reliabilitas (probabilitas keyakinan) dari estimasi X oleh X* disebut probabilitas γ , dengan pertidaksamaan


-Х*׀< δ, (30)

di mana adalah kesalahan pengambilan sampel marginal yang mencirikan lebar interval di mana nilai parameter yang dipelajari dari populasi umum ditemukan dengan probabilitas .

Tepercaya beri nama interval (X* - ; X* + ) yang mencakup parameter yang diselidiki X (yaitu, nilai parameter X ada di dalam interval ini) dengan keandalan yang diberikan .

Biasanya, keandalan perkiraan ditetapkan sebelumnya, dan angka yang mendekati satu diambil sebagai : 0,95; 0,99 atau 0,999.

Kesalahan pembatas berhubungan dengan kesalahan rata-rata sebagai berikut: , (31)

di mana: t adalah faktor kepercayaan, tergantung pada probabilitas P, yang dengannya dapat dikatakan bahwa kesalahan marjinal tidak akan melebihi kesalahan rata-rata lipat t (ini juga disebut titik kritis atau kuantil distribusi Student).

Sebagai berikut dari rasio, kesalahan marjinal berbanding lurus dengan kesalahan pengambilan sampel rata-rata dan koefisien kepercayaan, yang tergantung pada tingkat keandalan estimasi yang diberikan.

Dari rumus kesalahan sampling rata-rata dan rasio kesalahan marginal dan rata-rata, kita memperoleh:

Dengan mempertimbangkan probabilitas kepercayaan, rumus ini akan berbentuk.

Seperti diketahui, dalam statistika ada dua cara mengamati fenomena massa, tergantung pada kelengkapan cakupan objek: kontinu dan non-kontinu. Variasi dari observasi diskontinyu adalah observasi selektif.

Dibawah pengamatan selektif dipahami sebagai pengamatan non-kontinyu, di mana unit populasi yang diteliti, dipilih secara acak, dikenai pemeriksaan statistik (pengamatan).

Pengamatan selektif menetapkan sendiri tugas untuk mengkarakterisasi seluruh populasi unit untuk bagian yang diperiksa, tunduk pada semua aturan dan prinsip pengamatan statistik dan pekerjaan yang terorganisir secara ilmiah pada pemilihan unit.

Himpunan unit yang dipilih untuk survei dalam statistik biasanya disebut sampel populasi , dan himpunan unit dari mana pemilihan dibuat disebut populasi umum . Karakteristik utama populasi umum dan populasi sampel disajikan pada Tabel 1.

Tabel 1 - Ciri-ciri utama populasi umum dan populasi sampel
IndeksSebutan atau rumus
Populasi Populasi sampel
Jumlah unit N n
Jumlah unit yang memiliki fitur M m
Proporsi unit dengan fitur ini p = M/N = m/n
Proporsi unit yang tidak memiliki sifat ini q = 1 - p 1 - w
Nilai rata-rata tanda
Penyebaran tanda
Dispersi fitur alternatif (dispersi saham) pq (1 - )

Ketika melakukan pengamatan selektif, kesalahan sistematis dan acak terjadi. Kesalahan sistematis muncul karena pelanggaran aturan untuk memilih unit dalam sampel. Dengan mengubah aturan pemilihan, kesalahan tersebut dapat dihilangkan.

Kesalahan acak muncul karena sifat survei yang terputus-putus. Jika tidak, mereka disebut kesalahan keterwakilan (representativeness). Kesalahan acak dibagi menjadi kesalahan pengambilan sampel rata-rata dan marginal, yang ditentukan saat menghitung fitur dan saat menghitung bagian.

Rata-rata dan batas kesalahan terkait dengan hubungan berikut: := t, di mana adalah kesalahan pengambilan sampel marginal, adalah kesalahan pengambilan sampel rata-rata, t adalah faktor kepercayaan yang ditentukan tergantung pada tingkat probabilitas. Tabel 2 menunjukkan beberapa nilai t yang diambil dari teori probabilitas.

Nilai rata-rata kesalahan pengambilan sampel dihitung secara berbeda tergantung pada metode pemilihan dan prosedur pengambilan sampel. Rumus utama untuk menghitung kesalahan sampling disajikan pada Tabel 3.

Tabel 3 - Rumus Dasar untuk Menghitung Kesalahan Pengambilan Sampel dalam Seleksi Berulang dan Tidak Berulang
IndeksPenunjukan dan formula
Populasi Populasi sampel
Berarti kesalahan fitur untuk pengambilan sampel ulang acak
Rata-rata kesalahan berbagi untuk pengambilan sampel ulang acak
Batasi kesalahan fitur jika terjadi pemilihan ulang secara acak
Kesalahan Pembagian Marjinal dalam Pemilihan Ulang Acak
Kesalahan rata-rata fitur untuk pemilihan acak non-berulang
Rata-rata kesalahan pembagian dalam pemilihan acak non-berulang
Batasi kesalahan fitur dengan pemilihan acak yang tidak berulang
Kesalahan pembagian marjinal untuk pemilihan acak yang tidak berulang

Perhitungan kesalahan sampling rata-rata dan marginal memungkinkan Anda untuk menentukan batas yang mungkin di mana karakteristik populasi umum akan menjadi .

Misalnya, untuk rata-rata sampel, batas tersebut ditetapkan berdasarkan hubungan berikut:

Batas bagian sifat dalam populasi umum p.

Contoh pemecahan masalah dengan topik "Pengamatan pengambilan sampel dalam statistik"

Tugas 1 . Ada informasi tentang keluaran produk (pekerjaan, layanan) yang diperoleh berdasarkan pengamatan sampel 10% perusahaan di wilayah tersebut:

Tentukan: 1) untuk perusahaan yang termasuk dalam sampel: a) ukuran rata-rata output per perusahaan; b) penyebaran volume produksi; c) bagian perusahaan dengan volume produksi lebih dari 400 ribu rubel; 2) untuk wilayah secara keseluruhan, dengan probabilitas 0,954, batas di mana seseorang dapat mengharapkan: a) rata-rata volume produksi per perusahaan; b) bagian perusahaan dengan volume produksi lebih dari 400 ribu rubel; 3) total volume output di wilayah tersebut.

Larutan

Untuk memecahkan masalah, kami memperluas tabel yang diusulkan.

1) Untuk perusahaan yang termasuk dalam sampel, ukuran rata-rata output per perusahaan

110800/400 = 277 ribu rubel

Kami menghitung dispersi volume produksi dengan cara yang disederhanakan 2 = 35640000/400 - 277 2 = 89100 - 76229 = 12371.

Jumlah perusahaan yang volume produksinya melebihi 400 ribu rubel. sama dengan 36+12 = 48, dan bagiannya sama dengan = 48:400 = 0,12 = 12%.

2) Dari teori probabilitas diketahui bahwa dengan probabilitas P=0,954 faktor kepercayaan t=2. Kesalahan pengambilan sampel marginal

2√12371:400 = 11,12 ribu rubel

Mari kita tentukan batas rata-rata umum: 277-11.12 Xav 277+11.12; 265.88 Xav 288.12

Kesalahan pengambilan sampel marjinal dari bagian perusahaan

2√0,12*0,88/400 = 0,03

Mari kita tentukan batas-batas bagian umum: 0,12-0,03≤ p 0,12+0,03; 0,09≤ p≤0,15

3) Karena kelompok perusahaan yang dipertimbangkan adalah 10% dari total jumlah perusahaan di wilayah tersebut, ada 4.000 perusahaan di wilayah tersebut secara keseluruhan. Maka total volume output di wilayah tersebut berada pada kisaran 265,88×4000≤Q≤288,12×4000; 1063520 Q 1152480

Tugas 2 . Menurut hasil audit kontrol oleh otoritas pajak dari 400 struktur bisnis, 140 di antaranya tidak sepenuhnya menunjukkan pendapatan yang dikenakan pajak dalam pengembalian pajak mereka. Tentukan dalam populasi umum (untuk seluruh wilayah) bagian dari struktur bisnis yang menyembunyikan sebagian dari pendapatan pajak mereka dengan probabilitas 0,954.

Larutan

Sesuai dengan kondisi masalah, jumlah unit dalam populasi sampel adalah n=400, jumlah unit dengan fitur yang dipertimbangkan adalah m=140, probabilitasnya adalah P=0,954.

Dari teori probabilitas diketahui bahwa dengan probabilitas P=0,954 faktor kepercayaan t=2.

Proporsi unit yang memiliki atribut yang ditunjukkan ditentukan oleh rumus: p=w+∆p, di mana w = m/n=140/400=0,35=35%,
dan error limit fitur p diperoleh dari rumus : p= t √w(1-w)/n = 2√0.35×0.65/400 0.5 = 5%

Maka p = 35±5%.

Menjawab : Bagian dari struktur bisnis yang menyembunyikan sebagian dari pendapatan pajak mereka dengan probabilitas 0,954 adalah 35±5%.

Konsep pengamatan selektif.

Selektif pengamatan semacam itu disebut di mana karakteristik seluruh himpunan unit diberikan menurut beberapa bagiannya, dipilih dalam urutan acak.

Alasan menggunakan observasi selektif:

1. Menghemat bahan, tenaga kerja, sumber daya keuangan dan waktu.

2. Observasi yang dipilih seringkali mengarah pada peningkatan akurasi data, karena penurunan jumlah unit pengamatan secara tajam mengurangi kesalahan dalam mendaftarkan nilai-nilai tanda (salah cetak, penghitungan kurang, penghitungan ganda ...).

3. Pengamatan selektif adalah satu-satunya kemungkinan jika pengamatan disertai dengan kerusakan total atau sebagian pada objek yang diamati (kualitas kumpulan telur, kekuatan jaringan, dll.).

Bagian dari unit yang dipilih untuk observasi biasanya disebut sampel populasi atau hanya contoh, dan seluruh rangkaian unit tempat pemilihan dibuat - populasi umum.

Sistem penunjukan indikator berikut untuk populasi terpilih dan umum telah diadopsi.

Tergantung pada penerapan teknik seleksi, sampel dibagi menjadi serial (bersarang) dan tipologis.

· Kapan tipologis sampling, populasi umum dibagi menjadi beberapa jenis (kelompok, distrik), dan kemudian dilakukan pemilihan unit secara acak dari setiap jenis.

· Pada serial sampel dipilih bukan oleh unit, tetapi oleh seri tertentu, kelompok, area di mana pengamatan terus menerus dilakukan.

Ada dua cara untuk memilih unit dalam sampel:

- pemilihan ulang

setiap unit dalam sampel dikembalikan ke populasi umum dan memiliki kesempatan untuk dijadikan sampel ulang.

- seleksi tidak berulang

unit yang dipilih tidak dikembalikan ke populasi, dan unit yang tersisa lebih mungkin untuk dimasukkan dalam sampel. Pengambilan sampel non-repetitif memberikan hasil yang lebih akurat, namun terkadang tidak dapat dilakukan (consumer demand research).

Kualitas hasil sampling tergantung pada sejauh mana komposisi sampel mewakili populasi umum, dengan kata lain seberapa banyak sampel yang diambil. perwakilan(perwakilan). Untuk memastikan keterwakilan sampel, perlu diperhatikan prinsip pemilihan unit secara acak.

Kesalahan pengambilan sampel

Konsep dan jenis kesalahan pengambilan sampel

Karena populasi statistik yang diteliti terdiri dari unit-unit dengan karakteristik yang bervariasi, komposisi populasi sampel mungkin berbeda sampai batas tertentu dari komposisi populasi umum.

Perbedaan antara karakteristik sampel dan populasi umum adalah kesalahan pengambilan sampel.

Jenis kesalahan pengambilan sampel

Tugas utama metode pengambilan sampel adalah mempelajari kesalahan acak keterwakilan.

Rata-rata kesalahan pengambilan sampel

Kesalahan acak keterwakilan tergantung pada fakta-fakta berikut (diasumsikan bahwa tidak ada kesalahan pendaftaran):

1. Semakin besar ukuran sampel, ceteris paribus, semakin kecil kesalahan pengambilan sampel, yaitu. sampling error berbanding terbalik dengan ukurannya.

2. Semakin kecil variasi atribut maka semakin kecil sampling errornya. Jika tandanya tidak berubah sama sekali, dan akibatnya variansnya nol, maka tidak akan ada kesalahan pengambilan sampel, karena setiap unit populasi akan secara akurat mencirikan seluruh populasi atas dasar ini. Dengan demikian, kesalahan sampling berbanding lurus dengan besarnya varians.

Dalam statistik matematika, terbukti bahwa nilai kesalahan rata-rata dari pengambilan sampel ulang acak dapat ditentukan dengan rumus:

Namun, harus diingat bahwa besarnya dispersi pada populasi umum s2 kita tidak tahu, karena pengamatan selektif. Kami hanya dapat menghitung varians dalam populasi sampel S2. Rasio antara varians populasi umum dan sampel dinyatakan dengan rumus:

(6.2)

Jika sebuah n besar, oleh karena itu

s2 = S2

Dan rumus untuk kesalahan resampling rata-rata (6.1.) akan berbentuk:

Tetapi di sini kita hanya mempertimbangkan kesalahan pengambilan sampel untuk nilai rata-rata dari fitur yang diinginkan. Ada juga indikator proporsi unit dengan fitur yang menarik. Perhitungan error indikator ini memiliki ciri tersendiri.

Varians untuk indikator pangsa karakteristik ditentukan oleh rumus:

S 2 \u003d w (1-w) (6.4)

Maka rata-rata kesalahan sampling untuk ukuran bagian fitur akan sama dengan:

(6.5)

Pembuktian rumus (6.3) dan (6.5) dimulai dari skema resampling. Biasanya, sampel diatur dengan cara yang tidak berulang. Karena dengan seleksi non-berulang, ukuran populasi umum N disingkat dalam kode sampling, maka faktor tambahan dimasukkan dalam rumus kesalahan sampling , dan formulanya berbentuk:

(6.6)

(6.7)

Contoh 1. Mari kita tentukan seberapa besar perbedaan sampel dan indikator umum menurut data dari sampel kinerja siswa 10% yang tidak berulang.

Perhitungan kesalahan non-sampling ulang untuk mean:

n= 100 N= 1000

Cari varians sampel menggunakan rumus:

Di sini, nilainya tidak diketahui, yang dapat ditemukan sebagai rata-rata tertimbang biasa:

Lewat sini,

Itu. kita dapat mengatakan bahwa nilai rata-rata semua siswa () adalah 3,65 ± 0,07

Sekarang mari kita hitung proporsi siswa dalam populasi umum yang belajar untuk "4" dan "5".

Berdasarkan sampel, kita akan menemukan proporsi siswa yang menerima nilai “4” dan “5”.

(atau 64%)

Perhitungan kesalahan non-re-sampling untuk saham dilakukan dengan rumus:

(atau 4,5%)

Jadi, bagian siswa yang terdaftar di "4" dan "5" dalam populasi umum ( P) adalah 0,64±0,045 (atau 64%±4,5%).

Kesalahan pengambilan sampel marginal

Fakta bahwa rata-rata umum dan bagian umum tidak akan melampaui batas-batas tertentu dapat dinyatakan tidak dengan kepastian mutlak, tetapi hanya dengan tingkat probabilitas tertentu.

Dalam statistik matematika, dibuktikan bahwa karakteristik umum menyimpang dari sampel dengan jumlah kesalahan sampling (± m), hanya dengan probabilitas 0,683. Berkenaan dengan studi sampel, ini berarti bahwa nilai batas dapat dijamin hanya dalam 683 kasus dari 1000. Dalam 317 kasus yang tersisa, nilai batas ini akan berbeda.

Probabilitas penilaian dapat ditingkatkan dengan memperluas batas deviasi dengan mengambil sebagai ukuran kesalahan sampling rata-rata, meningkat sebesar t satu kali.

Itu. dengan tingkat probabilitas tertentu, kita dapat menyatakan bahwa penyimpangan karakteristik sampel dari yang umum tidak akan melebihi nilai tertentu, yang disebut kesalahan sampling marginal D (delta):

di mana t– faktor kepercayaan (faktor multiplisitas kesalahan), ditentukan tergantung pada tingkat kepercayaan yang diperlukan untuk menjamin hasil studi sampel.

Dalam praktiknya, tabel digunakan di mana probabilitas dihitung untuk berbagai nilai t. Mari kita lihat beberapa di antaranya.

t Kemungkinan t Kemungkinan
0,5 0,383 2,0 0,954
1,0 0,683 2,5 0,988
1,5 0,866 3,0 0,997

Misalnya, jika dalam contoh kita ingin meningkatkan probabilitas penilaian menjadi 0,954, maka kita ambil t= 2 dan dengan demikian mengubah batas deviasi skor rata-rata semua siswa dan proporsi siswa yang terdaftar di "4" dan "5".

Artinya, (6,9)

Artinya, (6.10)

Selama pengamatan selektif, harus dipastikan kecelakaan pemilihan satuan. Setiap unit harus memiliki kesempatan yang sama untuk dipilih dengan yang lain. Inilah yang menjadi dasar pengambilan sampel acak.

Ke sampel acak yang tepat mengacu pada pemilihan unit dari seluruh populasi umum (tanpa membaginya terlebih dahulu ke dalam kelompok apa pun) dengan menggambar banyak (terutama) atau beberapa metode serupa lainnya, misalnya, menggunakan tabel angka acak. Seleksi acak Pemilihan ini tidak sembarangan. Prinsip keacakan menunjukkan bahwa dimasukkan atau dikeluarkannya suatu objek dari sampel tidak dapat dipengaruhi oleh faktor apa pun selain kebetulan. Sebuah contoh sebenarnya acak seleksi dapat berfungsi sebagai sirkulasi kemenangan: dari jumlah total tiket yang diterbitkan, bagian tertentu dari nomor yang memperhitungkan kemenangan dipilih secara acak. Selain itu, semua nomor diberikan kesempatan yang sama untuk masuk ke sampel. Dalam hal ini, jumlah unit yang dipilih dalam kumpulan sampel biasanya ditentukan berdasarkan proporsi sampel yang diterima.

Berbagi sampel adalah rasio jumlah unit populasi sampel dengan jumlah unit populasi umum:

Jadi, dengan sampel 5% dari sekumpulan suku cadang dalam 1000 unit. ukuran sampel P adalah 50 unit, dan dengan sampel 10% - 100 unit. dll. Dengan organisasi ilmiah pengambilan sampel yang benar, kesalahan keterwakilan dapat dikurangi hingga nilai minimum, sebagai hasilnya, pengamatan selektif menjadi cukup akurat.

Seleksi acak yang tepat "dalam bentuknya yang murni" jarang digunakan dalam praktik pengamatan selektif, tetapi ini adalah titik awal di antara semua jenis seleksi lainnya, ia berisi dan menerapkan prinsip-prinsip dasar pengamatan selektif.

Mari kita pertimbangkan beberapa pertanyaan tentang teori metode pengambilan sampel dan rumus kesalahan untuk sampel acak sederhana.

Saat menerapkan metode pengambilan sampel dalam statistik, dua jenis utama indikator generalisasi biasanya digunakan: nilai rata-rata sifat kuantitatif dan nilai relatif dari fitur alternatif(proporsi atau proporsi unit dalam populasi statistik, yang berbeda dari semua unit lain dari populasi ini hanya dengan adanya sifat yang dipelajari).

Berbagi sampel (w), atau frekuensi, ditentukan oleh perbandingan jumlah satuan yang mempunyai sifat yang diteliti t, dengan jumlah total unit pengambilan sampel P:

Misalnya, jika dari 100 detail sampel ( n=100), 95 bagian ternyata standar (t=95), maka fraksi sampel

w=95/100=0,95 .

Untuk mengkarakterisasi keandalan indikator sampel, ada: tengah dan kesalahan sampling marginal.

Kesalahan pengambilan sampel ? atau, dengan kata lain, kesalahan keterwakilan adalah perbedaan antara sampel yang sesuai dan karakteristik umum:

*

*

Kesalahan pengambilan sampel adalah karakteristik hanya dari pengamatan selektif. Semakin besar nilai kesalahan ini, semakin banyak indikator sampel berbeda dari indikator umum yang sesuai.

Rata-rata sampel dan bagian sampel secara inheren variabel acak, yang dapat mengambil nilai yang berbeda tergantung pada unit populasi mana yang dimasukkan dalam sampel. Oleh karena itu, kesalahan pengambilan sampel juga merupakan variabel acak dan dapat mengambil nilai yang berbeda. Oleh karena itu, tentukan rata-rata kemungkinan kesalahan – kesalahan sampel rata-rata.

Itu tergantung pada apa? berarti kesalahan pengambilan sampel? Tunduk pada prinsip pemilihan acak, kesalahan pengambilan sampel rata-rata ditentukan terutama ukuran sampel: semakin besar populasi, ceteris paribus, semakin kecil rata-rata kesalahan sampling. Meliputi survei sampel dengan peningkatan jumlah unit populasi umum, kami semakin akurat mencirikan seluruh populasi.

Kesalahan pengambilan sampel rata-rata juga tergantung pada derajat variasi sifat yang dipelajari. Tingkat variasi, seperti yang Anda tahu, ditandai dengan dispersi? 2 atau w(1-w)-- untuk fitur alternatif. Semakin kecil variasi fitur, dan karenanya varians, semakin kecil rata-rata kesalahan sampling, dan sebaliknya. Dengan dispersi nol (atribut tidak bervariasi), kesalahan pengambilan sampel rata-rata adalah nol, yaitu, setiap unit populasi umum akan secara akurat mengkarakterisasi seluruh populasi sesuai dengan atribut ini.

Ketergantungan rata-rata kesalahan pengambilan sampel pada volumenya dan tingkat variasi fitur tercermin dalam rumus yang dapat digunakan untuk menghitung kesalahan pengambilan sampel rata-rata dalam kondisi pengamatan sampel, ketika karakteristik umum ( x,p) tidak diketahui, dan oleh karena itu, tidak mungkin menemukan kesalahan pengambilan sampel yang sebenarnya langsung dari rumus (formulir 1), (formulir 2).

W Dengan pilihan acak kesalahan rata-rata secara teoritis dihitung dengan rumus berikut:

* untuk sifat kuantitatif rata-rata

* untuk berbagi (karakteristik alternatif)

Sejak praktis varians atribut dalam populasi umum? 2 tidak diketahui secara pasti, dalam praktiknya mereka menggunakan nilai varians S 2 yang dihitung untuk populasi sampel berdasarkan hukum bilangan besar, yang menurutnya populasi sampel dengan ukuran sampel yang cukup besar secara akurat mereproduksi karakteristik populasi umum.

Lewat sini, rumus perhitungan tengah kesalahan pengambilan sampel pengambilan sampel ulang secara acak adalah sebagai berikut:

* untuk sifat kuantitatif rata-rata

* untuk berbagi (karakteristik alternatif)

Namun, varians dari populasi sampel tidak sama dengan varians dari populasi umum, dan oleh karena itu, rata-rata kesalahan sampling yang dihitung dengan menggunakan rumus (form. 5) dan (form. 6) akan menjadi perkiraan. Tetapi dalam teori probabilitas terbukti bahwa varians umum dinyatakan melalui pilihan dengan hubungan berikut:

Karena P/(n-1) untuk ukuran yang cukup besar P -- nilai mendekati kesatuan, dapat diasumsikan bahwa, dan oleh karena itu, dalam perhitungan praktis dari kesalahan pengambilan sampel rata-rata, rumus (form. 5) dan (form. 6) dapat digunakan. Dan hanya dalam kasus sampel kecil (ketika ukuran sampel tidak melebihi 30), koefisien harus diperhitungkan P/(n-1) dan hitung kesalahan rata-rata sampel kecil menurut rumus:

W X Dengan pemilihan acak non-berulang dalam rumus di atas untuk menghitung kesalahan pengambilan sampel rata-rata, ekspresi akar perlu dikalikan dengan 1-(n / N), karena jumlah unit dalam populasi umum berkurang dalam proses pengambilan sampel non-berulang. Oleh karena itu, untuk pemilihan yang tidak berulang rumus perhitungan kesalahan sampling rata-rata akan mengambil bentuk sebagai berikut:

* untuk sifat kuantitatif rata-rata

* untuk berbagi (karakteristik alternatif)

. (bentuk. 10)

Karena P selalu kurang N, maka faktor tambahan 1-( t/n) akan selalu kurang dari satu. Dari sini dapat disimpulkan bahwa kesalahan rata-rata dengan pemilihan non-berulang akan selalu lebih kecil daripada dengan pemilihan berulang. Pada saat yang sama, dengan persentase sampel yang relatif kecil, faktor ini mendekati satu (misalnya, dengan sampel 5% adalah 0,95; dengan sampel 2% adalah 0,98, dll.). Oleh karena itu, terkadang dalam praktiknya, rumus (formulir 5) dan (formulir 6) digunakan untuk menentukan kesalahan sampling rata-rata tanpa pengali yang ditentukan, meskipun sampel disusun sebagai sampel yang tidak berulang. Ini terjadi ketika jumlah unit dari populasi umum N tidak diketahui atau tidak terbatas, atau ketika P sangat sedikit dibandingkan dengan N, dan pada intinya, pengenalan faktor tambahan, yang nilainya mendekati satu, praktis tidak akan mempengaruhi nilai rata-rata kesalahan pengambilan sampel.

Pengambilan sampel mekanis terdiri dari fakta bahwa pemilihan unit dalam sampel dari yang umum, dibagi dengan kriteria netral menjadi interval (kelompok) yang sama, dilakukan sedemikian rupa sehingga hanya satu unit yang dipilih dari setiap kelompok tersebut dalam sampel. Untuk menghindari kesalahan sistematis, unit yang berada di tengah setiap kelompok harus dipilih.

Saat mengatur seleksi mekanis, unit populasi telah diatur sebelumnya (biasanya dalam daftar) dalam urutan tertentu (misalnya, menurut abjad, berdasarkan lokasi, dalam urutan menaik atau menurun dari nilai indikator apa pun yang tidak terkait dengan properti yang sedang dipelajari, dll.), dll.), setelah itu sejumlah unit tertentu dipilih secara mekanis, pada interval tertentu. Dalam hal ini, ukuran interval dalam populasi umum sama dengan kebalikan dari bagian sampel. Jadi, dengan sampel 2%, setiap unit ke-50 (1: 0,02) dipilih dan diperiksa, dengan sampel 5%, setiap unit ke-20 (1: 0,05), misalnya, detail turun dari mesin.

Dengan populasi yang cukup besar, pemilihan mekanik dalam hal akurasi hasil mendekati acak yang tepat. Oleh karena itu, untuk menentukan kesalahan rata-rata dari sampel mekanis, digunakan rumus untuk pengambilan sampel acak tanpa pengulangan (form. 9), (form. 10).

Untuk memilih unit dari populasi yang heterogen, yang disebut sampel khas , yang digunakan dalam kasus di mana semua unit populasi umum dapat dibagi menjadi beberapa kelompok yang homogen secara kualitatif dan serupa sesuai dengan karakteristik yang mempengaruhi indikator yang diteliti.

Saat mensurvei perusahaan, kelompok tersebut dapat berupa, misalnya, industri dan sub-sektor, bentuk kepemilikan. Kemudian, dari setiap kelompok tipikal, pemilihan unit individual ke dalam sampel dibuat dengan sampel acak atau mekanis yang tepat.

Sampel tipikal biasanya digunakan dalam studi populasi statistik yang kompleks. Misalnya, dalam survei sampel anggaran keluarga pekerja dan karyawan di sektor ekonomi tertentu, produktivitas tenaga kerja pekerja di suatu perusahaan, diwakili oleh kelompok terpisah berdasarkan kualifikasi.

Sampel tipikal memberikan hasil yang lebih akurat dibandingkan dengan metode lain untuk memilih unit dalam kumpulan sampel. Tipifikasi populasi umum memastikan keterwakilan sampel semacam itu, representasi setiap kelompok tipologis di dalamnya, yang memungkinkan untuk mengecualikan pengaruh dispersi antarkelompok pada kesalahan sampel rata-rata.

Saat menentukan kesalahan rata-rata dari sampel tipikal sebagai indikator variasi adalah rata-rata varian intragrup.

Kesalahan pengambilan sampel rata-rata ditemukan dengan rumus:

* untuk sifat kuantitatif rata-rata

(seleksi ulang); (bentuk. 11)

(seleksi ireversibel); (bentuk. 12)

* untuk berbagi (karakteristik alternatif)

(seleksi ulang); (form.13)

(seleksi non-repetitif), (form. 14)

di mana rata-rata varians intra-grup untuk populasi sampel;

Rata-rata varians intra-kelompok bagian (sifat alternatif) dalam populasi sampel.

pengambilan sampel serial melibatkan pemilihan acak dari populasi umum bukan dari unit individu, tetapi dari kelompok yang sama (sarang, seri) untuk menundukkan semua unit tanpa kecuali untuk pengamatan dalam kelompok tersebut.

Penggunaan sampling serial karena banyak barang untuk pengangkutan, penyimpanan dan penjualannya dikemas dalam kemasan, kotak, dll. Oleh karena itu, ketika mengontrol kualitas barang yang dikemas, lebih rasional untuk memeriksa beberapa paket (seri) daripada memilih jumlah barang yang diperlukan dari semua paket.

Karena dalam kelompok (deret) semua unit tanpa kecuali diperiksa, kesalahan pengambilan sampel rata-rata (ketika memilih deret yang sama) hanya bergantung pada varians antarkelompok (antarseri).

W Kesalahan pengambilan sampel rata-rata untuk skor rata-rata selama pemilihan serial, mereka ditemukan dengan rumus:

(seleksi ulang); (form.15)

(seleksi non-repetitif), (form. 16)

di mana r- jumlah seri yang dipilih; R- jumlah episode.

Varians antarkelompok sampel serial dihitung sebagai berikut:

di mana rata-ratanya? saya- seri ke-; - rata-rata umum untuk seluruh populasi sampel.

W Rata-rata kesalahan pengambilan sampel untuk berbagi (fitur alternatif) dalam pemilihan seri:

(seleksi ulang); (formulir. 17)

(seleksi tidak berulang). (bentuk. 18)

antarkelompok(antar seri) varians dari bagian sampel serial ditentukan dengan rumus:

, (bentuk 19)

di mana bagian fiturnya? saya seri th; - bagian total sifat di seluruh sampel.

Dalam praktik survei statistik, selain metode pemilihan yang dipertimbangkan sebelumnya, kombinasinya digunakan (seleksi gabungan).

Konsep pengamatan selektif.

Dengan metode pengamatan statistik, dimungkinkan untuk menggunakan dua metode pengamatan: kontinu, mencakup semua unit populasi, dan selektif (non-kontinyu).

Yang dimaksud dengan sampling adalah suatu metode penelitian yang berkaitan dengan penetapan indikator-indikator generalisasi dari populasi untuk beberapa bagiannya berdasarkan metode pemilihan secara acak.

Dengan pengamatan selektif, sebagian kecil dari seluruh populasi (5-10%) menjadi sasaran pemeriksaan.

Totalitas yang akan diperiksa disebut populasi umum.

Bagian dari unit yang dipilih dari populasi umum yang menjadi subjek survei disebut sampel populasi atau sampel.

Indikator yang mencirikan populasi umum dan sampel:

1) Bagian dari tanda alternatif;

PADA populasi proporsi unit yang memiliki beberapa fitur alternatif dilambangkan dengan huruf "P".

PADA kerangka sampel proporsi unit yang memiliki beberapa atribut alternatif dilambangkan dengan huruf "w".

2) Rata-rata ukuran rambu;

PADA populasi ukuran rata-rata suatu fitur dilambangkan dengan huruf (general average).

PADA kerangka sampel ukuran rata-rata fitur dilambangkan dengan huruf (sampel mean).

Definisi kesalahan pengambilan sampel.

Pengamatan selektif didasarkan pada prinsip kemungkinan yang sama untuk memasukkan unit-unit populasi umum ke dalam sampel. Ini menghindari kesalahan pengamatan yang sistematis. Namun, karena populasi yang diteliti terdiri dari unit-unit dengan karakteristik yang berbeda-beda, komposisi sampel dapat berbeda dengan komposisi populasi umum sehingga menyebabkan perbedaan antara karakteristik umum dan sampel.

Perbedaan seperti itu disebut kesalahan keterwakilan atau kesalahan pengambilan sampel.

Menentukan kesalahan pengambilan sampel adalah tugas utama yang harus diselesaikan selama pengamatan selektif.

Dalam statistik matematika, terbukti bahwa rata-rata kesalahan sampling ditentukan oleh rumus:

Dimana m adalah kesalahan pengambilan sampel;

s 2 0 adalah varians dari populasi umum;

n adalah jumlah unit sampel.

Dalam prakteknya, varians populasi sampel s 2 digunakan untuk menentukan mean sampling error.

Ada persamaan antara varians umum dan sampel:

(2).

Dapat dilihat dari rumus (2) bahwa varians umum lebih besar dari varians sampel dengan nilai (). Namun, untuk ukuran sampel yang cukup besar, rasio ini mendekati satu, sehingga kita dapat menulis bahwa

Namun, rumus untuk menentukan mean sampling error ini hanya berlaku untuk resampling.

Dalam praktiknya, biasanya digunakan seleksi tidak berulang dan kesalahan pengambilan sampel rata-rata dihitung sedikit berbeda, karena ukuran sampel menyusut selama penelitian:

(4)

di mana n adalah ukuran sampel;

N adalah ukuran populasi umum;

s 2 - varians sampel.

Untuk proporsi fitur alternatif, kesalahan pengambilan sampel rata-rata pada tidak ada pemilihan ulang ditentukan dengan rumus:

(5), dimana

w (1-w) - kesalahan rata-rata dari bagian sampel dari atribut alternatif;

w adalah bagian dari fitur alternatif dari populasi sampel.

Pada pemilihan ulang kesalahan rata-rata bagian dari atribut alternatif ditentukan oleh rumus yang disederhanakan:

(6)

Jika sebuah ukuran sampel tidak melebihi 5%, kesalahan rata-rata dari bagian sampel dan rata-rata sampel ditentukan oleh rumus yang disederhanakan (3) dan (6).

Penentuan kesalahan rata-rata dari rata-rata sampel dan bagian sampel diperlukan untuk menetapkan nilai yang mungkin dari rata-rata umum (x) dan bagian umum (P) berdasarkan rata-rata sampel (x) dan bagian sampel (w).

Salah satu nilai yang mungkin di mana rata-rata umum berada ditentukan oleh rumus:

Untuk bagian umum, interval ini dapat ditulis sebagai :

(8)

Karakteristik bagian dan rata-rata yang diperoleh dengan demikian dalam populasi umum berbeda dari nilai bagian sampel dan rata-rata sampel dengan nilai m. Namun, ini tidak dapat dijamin dengan kepastian yang lengkap, tetapi hanya dengan tingkat probabilitas tertentu.

Dalam statistik matematika, dibuktikan bahwa batas-batas nilai karakteristik rata-rata umum dan sampel berbeda dengan m hanya dengan probabilitas 0,683. Oleh karena itu, hanya dalam 683 kasus dari 1000 rata-rata umum berada dalam x= x mx, dalam kasus lain, itu akan melampaui batas-batas ini.

Probabilitas penilaian dapat ditingkatkan dengan memperluas batas penyimpangan dengan mengambil sebagai ukuran kesalahan pengambilan sampel rata-rata, meningkat sebanyak t kali.

Faktor t disebut faktor kepercayaan. Itu ditentukan tergantung pada tingkat kepercayaan yang diperlukan untuk menjamin hasil penelitian.

Matematikawan A.M. Lyapushev menghitung berbagai nilai t, yang biasanya diberikan dalam tabel yang sudah jadi.

Artikel bagian terbaru:

Titik tertinggi bola langit di atas
Titik tertinggi bola langit di atas

Titik dan garis bola langit - bagaimana menemukan almucantarat di mana ekuator langit lewat, yang merupakan meridian langit. Apa yang mewakili...

Bola langit elemen utamanya: titik, garis, bidang
Bola langit elemen utamanya: titik, garis, bidang

Semua benda langit berada pada jarak yang luar biasa besar dan sangat berbeda dari kita. Tapi bagi kami mereka tampak sama-sama jauh dan seperti...

Biosintesis protein dan asam nukleat
Biosintesis protein dan asam nukleat

Dalam metabolisme tubuh, peran utama adalah protein dan asam nukleat. Zat protein membentuk dasar dari semua ...