平均値式の限界誤差。 平均および限界サンプリング誤差
サンプル指標の信頼性を特徴づけるために、サンプル観測のみに特徴的な平均サンプリング誤差と限界サンプリング誤差が区別されます。 これらの指標は、サンプルと対応する一般的な指標の違いを反映しています。
平均サンプル誤差主にサンプルサイズによって決定され、調査中の特性の構造と変動の程度によって異なります。
平均サンプリング誤差の意味は次のとおりです。 サンプルの割合(w)とサンプルの平均()の計算値は、本質的に確率変数です。 それらは、一般集団のどの特定の単位がサンプルに分類されるかに応じて、異なる値を取ることができます。 たとえば、企業の従業員の平均年齢を決定するときに、一方のサンプルに若い人が多く、もう一方のサンプルに年配の労働者が含まれている場合、サンプルの平均とサンプリング誤差は異なります。 平均サンプリング誤差次の式で決定されます。
(27)または-リサンプリング。 (28)
ここで、μは平均サンプリング誤差です。
σは、一般集団における形質の標準偏差です。
nはサンプルサイズです。
エラー値μは、サンプルによって確立された特徴の平均値が、一般母集団の特徴の真の値とどのように異なるかを示します。
式から、サンプリング誤差は標準偏差に正比例し、サンプルのユニット数の平方根に反比例することがわかります。 これは、たとえば、一般的な母集団における特徴の値の広がりが大きいほど、つまり分散が大きいほど、サンプル調査の結果を信頼したい場合はサンプルサイズを大きくする必要があることを意味します。 逆に、分散が小さい場合は、少数のサンプル母集団に制限することができます。 その場合、サンプリングエラーは許容範囲内になります。
サンプリング中の一般母集団のサイズNは、繰り返されない選択中に減少するため、平均サンプリング誤差を計算するための式に追加の要素が含まれています。
(1- )。 平均サンプリング誤差の式は、次の形式を取ります。
非反復サンプリングの場合、平均誤差は小さくなり、より広く使用されます。
実用的な結論には、サンプルの結果に基づいた一般的な母集団の特性評価が必要です。 サンプルの平均と比率は、起こりうる誤差の限界を考慮に入れて、それを保証する確率のレベルで、一般的な母集団に適用されます。 特定の確率レベルが与えられると、正規化された偏差の値が選択され、限界サンプリング誤差が決定されます。
X *による推定Xの信頼性(信頼確率)確率と呼ばれる γ 、不等式
׀Х-Х*׀< δ, (30)
ここで、δは、一般母集団の調査されたパラメーターの値が確率γで検出される間隔の幅を特徴付ける限界サンプリング誤差です。
信頼できる与えられた信頼性γで調査されたパラメーターXをカバーする間隔(X*-δ;X* +δ)に名前を付けます(つまり、パラメーターXの値はこの間隔内にあります)。
通常、推定の信頼性は事前に設定されており、1に近い数値はγ:0.95と見なされます。 0.99または0.999。
限界誤差δは、次のように平均誤差μに関連しています。、(31)
ここで、tは、確率Pに応じた信頼係数であり、限界誤差δはt倍の平均誤差μ(スチューデントの分布の臨界点または分位数とも呼ばれます)を超えないと主張できます。
比率から次のように、限界誤差は平均サンプリング誤差と信頼係数に正比例します。これは、推定の信頼性の特定のレベルに依存します。
平均サンプリング誤差と限界誤差と平均誤差の比率の式から、次の式が得られます。
信頼確率を考慮に入れると、この式は次の形式になります。
知られているように、統計では、オブジェクトのカバレッジの完全性に応じて、質量現象を観察する2つの方法があります。連続と非連続です。 不連続な観察のバリエーションは、選択的な観察です。
下 選択的観察 は、ランダムに選択された調査対象母集団の単位が統計的調査(観測)にかけられる非連続観測として理解されます。
選択的観察は、統計的観察のすべての規則と原則、およびユニットの選択に関する科学的に組織化された作業に従って、検査された部分のユニットの母集団全体を特徴付けるタスクを設定します。
統計の調査のために選択されたユニットのセットは通常、 サンプル母集団 、および選択が行われるユニットのセットはと呼ばれます 一般人口 。 一般母集団とサンプル母集団の主な特徴を表1に示します。
索引 | 指定または式 | |
---|---|---|
人口 | サンプル母集団 | |
ユニット数 | N | n |
機能を備えたユニットの数 | M | m |
この機能を備えたユニットの割合 | p = M / N | ω=m/ n |
この属性を持たないユニットの割合 | q = 1-p | 1-w |
平均値 サイン | ||
分散 サイン | ||
代替機能の分散(シェアの分散) | pq | ω(1-ω) |
選択的観測を行う場合、系統的でランダムなエラーが発生します。 サンプル内の単位を選択するための規則に違反するため、体系的なエラーが発生します。 選択規則を変更することにより、このようなエラーを排除できます。
ランダムなエラーは、調査の不連続性が原因で発生します。 それ以外の場合は、代表性(代表性)エラーと呼ばれます。 ランダムエラーは、平均サンプリングエラーと限界サンプリングエラーに分けられます。これらのエラーは、特徴の計算時とシェアの計算時の両方で決定されます。
平均誤差と限界誤差は、次の関係で関連付けられます :Δ=tμここで、Δは限界サンプリング誤差、μは平均サンプリング誤差、tは確率のレベルに応じて決定される信頼係数です。 表2は、確率論から得られたtのいくつかの値を示しています。
平均サンプリング誤差の値は、選択方法とサンプリング手順に応じて差分計算されます。 サンプリングエラーを計算するための主な式を表3に示します。
索引 | 指定と式 | |
---|---|---|
人口 | サンプル母集団 | |
ランダムリサンプリングの平均機能エラー | ||
ランダムリサンプリングの平均共有エラー | ||
ランダムに再選択した場合の機能のエラーを制限する | ||
ランダム再選択でのマージナルシェアエラー | ||
ランダムな非反復選択の機能の平均誤差 | ||
ランダムな非反復選択での平均共有エラー | ||
ランダムな非反復選択で機能のエラーを制限する | ||
ランダムな非反復選択のマージナルシェアエラー |
平均および限界サンプリング誤差の計算により、一般的な母集団の特性が制限される可能性のある限界を決定できます。 .
たとえば、サンプル平均の場合、このような制限は次の関係に基づいて設定されます。
一般集団における形質のシェアの限界p。
トピック「統計におけるサンプリング観測」に関する問題解決の例
タスク1 。 地域の企業の10%のサンプル観察に基づいて得られた製品(作品、サービス)のアウトプットに関する情報があります。
次のことを決定します。1)サンプルに含まれる企業の場合:a)企業ごとの出力の平均サイズ。 b)生産量の分散。 c)40万ルーブル以上の生産量を持つ企業のシェア。 2)地域全体で、確率0.954で、期待できる限界は次のとおりです。a)企業あたりの平均生産量。 b)40万ルーブル以上の生産量を持つ企業のシェア。 3)地域の総生産量。
解決
この問題を解決するために、提案されたテーブルを拡張します。
1)サンプルに含まれる企業の場合、企業あたりの平均出力サイズ
110800/400=277千ルーブル
単純化された方法で生産量の分散を計算します。σ2=35640000/400-2772 = 89100-76229=12371。
生産量が40万ルーブルを超える企業の数。 36 + 12 = 48に等しく、それらのシェアはω= 48:400 = 0.12 = 12%に等しくなります。
2)確率論から、確率P=0.954で信頼係数t=2であることがわかっています。 限界サンプリングエラー
2√12371:400=11.12千ルーブル
共同海損の境界を設定しましょう:277-11.12≤Xav≤277+ 11.12; 265.88≤Xav≤288.12
企業のシェアの限界サンプリングエラー
2√0,12*0,88/400 = 0,03
一般的なシェアの境界を定義しましょう:0.12-0.03≤p≤0.12+ 0.03; 0.09≤p≤0.15
3)検討対象の企業グループは、地域内の企業総数の10%であるため、地域全体で4,000の企業が存在します。 その場合、その地域の総生産量は265.88×4000≤Q≤288.12×4000の範囲内にあります。 1063520≤Q≤1152480
タスク2 。 400の事業構造の税務当局による管理監査の結果によると、それらの140は、納税申告書に課税対象の所得を完全に示していません。 一般人口(地域全体)で、税収の一部を0.954の確率で隠したビジネス構造のシェアを決定します。
解決
問題の条件に応じて、サンプル母集団のユニット数はn = 400、考慮される特徴を持つユニットの数はm = 140、確率はP=0.954です。
確率論から、確率P=0.954では信頼係数t=2であることがわかっています。
示された属性を持つユニットの割合は、次の式によって決定されます。p = w + ∆p、ここで、w = m / n = 140/400 = 0.35 = 35%、
特徴の限界誤差∆pは、次の式から得られます。∆p =t√w(1-w)/ n=2√0.35×0.65/400≈0.5=5%
次に、p = 35±5%。
答え :所得の一部を0.954の確率で隠した事業構造の割合は35±5%です。
選択的観察の概念。
選択的このような観察は、ユニットのセット全体の特性が、ランダムな順序で選択されたそれらの部分のいくつかに従って与えられるというものと呼ばれます。
選択的観察を使用する理由:
1.材料、労力、財源、および時間を節約します。
2.選択された観測値は、多くの場合、データの精度の向上につながります。 観測の単位数を減らすと、記号の値を登録する際のエラーが大幅に減少します(ミスプリント、過少カウント、二重カウント...)。
3.観察が観察対象物への完全または部分的な損傷(卵のバッチの品質、組織の強度など)を伴う場合、選択的観察が唯一の可能なものです。
観察のために選択されたユニットのその部分は、通常、 サンプル母集団または単に サンプリング、および選択が行われるユニットのセット全体- 一般人口.
選択された一般の人々のための指標の指定の以下のシステムが採用されました。
選択手法の用途に応じて、サンプルはシリアル(ネスト)と類型に分けられます。
・ いつ 類型論的サンプリングでは、一般的な母集団がタイプ(グループ、地区)に分割され、各タイプからランダムにユニットが選択されます。
・ で シリアルサンプルは、単位ではなく、継続的な観察が行われる特定のシリーズ、グループ、領域によって選択されます。
サンプル内の単位を選択するには、次の2つの方法があります。
- 再選択
サンプル内の各ユニットは一般集団に戻され、再サンプリングされる機会があります。
- 非反復選択
選択したユニットは母集団に戻されず、残りのユニットがサンプルに含まれる可能性が高くなります。 非反復サンプリングはより正確な結果をもたらしますが、それができない場合もあります(消費者需要調査)。
サンプル観測の結果の品質は、サンプルの構成が一般的な母集団をどの程度表すか、つまり、サンプルの量に依存します。 代表(代表)。 サンプルの代表性を確保するには、ユニットのランダム選択の原則を遵守する必要があります。
サンプリングエラー
サンプリングエラーの概念と種類
調査中の母集団はさまざまな特性を持つユニットで構成されているため、サンプル母集団の構成は一般母集団の構成とある程度異なる場合があります。
サンプルの特性と一般的な母集団との間の不一致は次のとおりです。 サンプリングエラー.
サンプリングエラーの種類
サンプリング方法の主なタスクは、代表性のランダムエラーを調査することです。
平均サンプリング誤差
代表性のランダムエラーは、次の事実に依存します(登録エラーがないと想定されます)。
1.サンプルサイズが大きいほど、ceterisparibusのサンプリングエラーは小さくなります。 サンプリングエラーはそのサイズに反比例します。
2.属性の変動が小さいほど、サンプリングエラーは小さくなります。 符号がまったく変化せず、その結果、分散がゼロの場合、サンプリングエラーは発生しません。 人口のどの単位も、これに基づいて人口全体を正確に特徴付けます。 したがって、サンプリング誤差は分散の大きさに正比例します。
数理統計では、ランダムリサンプリングの平均誤差の値は次の式で決定できることが証明されています。
ただし、一般人口のばらつきの大きさには留意する必要があります。 s2わからないので 選択的観察。 サンプル母集団の分散のみを計算できます S2。 一般母集団と標本母集団の分散の比率は、次の式で表されます。
(6.2)
もし n大きい、したがって
s2 = S2
また、平均リサンプリングエラー(6.1。)の式は、次の形式になります。
ただし、ここでは、対象の特徴の平均値のサンプリング誤差のみを考慮しました。 関心のある機能を備えたユニットの割合の指標もあります。 この指標の誤差の計算には独自の特徴があります。
特性シェア指標の分散は、次の式で決定されます。
S 2 \ u003d w(1-w) (6.4)
その場合、機能のシェアを測定するための平均サンプリングエラーは次のようになります。
(6.5)
式(6.3)と(6.5)の証明は、リサンプリングスキームから始まります。 通常、サンプルは非反復的な方法で編成されます。 なぜなら 非反復的な選択で、一般的な人口のサイズ Nはサンプリングコードで省略され、追加の要素がサンプリングエラーの式に含まれます , 数式は次の形式を取ります。
(6.6)
(6.7)
例1.生徒の成績の10%の繰り返しのないサンプルのデータに従って、サンプルと一般的な指標がどの程度異なるかを判断しましょう。
平均の非再サンプリング誤差の計算:
n= 100 N= 1000
次の式を使用して標本分散を見つけます。
ここでは、値は不明であり、通常の加重平均として見つけることができます。
この上、
それらの。 全生徒の平均点()は3.65±0.07と言えます
それでは、「4」と「5」を勉強している一般人口に占める学生の割合を計算してみましょう。
サンプルに基づいて、「4」と「5」の成績を取得した生徒の割合を求めます。
(または64%)
シェアの非再サンプリングエラーの計算は、次の式に従って行われます。
(または4.5%)
したがって、一般人口の「4」と「5」に在籍する学生の割合( P)は0.64±0.045(または64%±4.5%)です。
限界サンプリングエラー
共同海損と共同海損が一定の限界を超えないという事実は、絶対的な確実性ではなく、ある程度の確率でのみ主張することができます。
数理統計では、一般的な特性がサンプリング誤差の量(± m)、0.683の確率でのみ。 サンプルスタディに関しては、これは、制限の値が保証できるのは1000のうち683の場合のみであることを意味すると理解されます。残りの317の場合、これらの制限の値は異なります。
判断の確率は、平均サンプリング誤差を測定することによって偏差の限界を拡大することによって高めることができます。 t一度。
それらの。 ある程度の確率で、一般的なものからのサンプル特性の偏差は、限界サンプリング誤差D(デルタ)と呼ばれる特定の値を超えないと断言できます。
どこ t–信頼係数(エラー多重度係数)。サンプル調査の結果を保証するために必要な信頼水準に応じて決定されます。
実際には、さまざまな値の確率が計算されるテーブルが使用されます t。 それらのいくつかを見てみましょう。
t | 確率 | t | 確率 |
0,5 | 0,383 | 2,0 | 0,954 |
1,0 | 0,683 | 2,5 | 0,988 |
1,5 | 0,866 | 3,0 | 0,997 |
たとえば、この例で判断の確率を0.954に上げたい場合は、次のようになります。 t= 2であるため、すべての学生の平均スコアの偏差の限界と、「4」および「5」に登録されている学生の割合を変更します。
つまり、(6.9)
つまり、(6.10)
選択的観察中は、それを確認する必要があります 事件ユニットの選択。 各ユニットは、他のユニットと一緒に選ばれる機会が均等でなければなりません。 これは、ランダムサンプリングが基づいているものです。
に 適切なランダムサンプル ロット(主に)または他の同様の方法(たとえば、乱数表を使用)を描画することにより、一般集団全体から(事前にグループに分割せずに)ユニットを選択することを指します。 ランダム選択この選択はランダムではありません。 ランダム性の原則は、サンプルからのオブジェクトの包含または除外は、偶然以外の要因の影響を受けないことを示唆しています。 例 実際にはランダム選択は賞金の回覧として機能します。発行されたチケットの総数から、賞金を占める数の特定の部分がランダムに選択されます。 さらに、すべての数字には、サンプルに入る機会が均等に与えられています。 この場合、サンプルセットで選択されるユニットの数は、通常、サンプルの受け入れられた比率に基づいて決定されます。
サンプルシェア 一般母集団の単位数に対するサンプル母集団の単位数の比率です。
したがって、1000ユニットの部品のバッチからの5%のサンプルを使用します。 サンプルサイズ Pは50ユニットで、10%のサンプルで-100ユニットです。 等 サンプリングの正しい科学的構成により、代表性誤差を最小値に減らすことができ、その結果、選択的観測は十分に正確になります。
「純粋な形で」適切なランダム選択が選択的観察の実践で使用されることはめったにありませんが、それは他のすべてのタイプの選択の出発点であり、選択的観察の基本原則を含み、実装します。
サンプリング法の理論と単純ランダムサンプルの誤差式についていくつか質問してみましょう。
統計にサンプリング方法を適用する場合、通常、2つの主要なタイプの一般化インジケーターが使用されます。 量的形質の平均値と 代替機能の相対的な価値(統計母集団の単位の割合または割合。これは、調査対象の特性の存在によってのみ、この母集団の他のすべての単位とは異なります)。
サンプルシェア (w)、または頻度は、調査中の特性を持つユニットの数の比率によって決定されます t、サンプリングユニットの総数に P:
たとえば、100個のサンプル詳細のうち( n= 100)、95パーツが標準であることが判明 (t= 95)、次にサンプルの割合
w=95/100=0,95 .
サンプル指標の信頼性を特徴づけるために、 真ん中と 限界サンプリングエラー。
サンプリングエラー ? または、言い換えると、代表性誤差は、対応するサンプルと一般的な特性の差です。
*
*
サンプリングエラーは、選択的な観測にのみ特徴的です。 このエラーの値が大きいほど、サンプルのインジケーターが対応する一般的なインジケーターと異なります。
サンプル平均とサンプルシェアは本質的に ランダム変数、これは、母集団のどの単位がサンプルに含まれていたかに応じて、異なる値を取ることができます。 したがって、サンプリングエラーも確率変数であり、異なる値を取る可能性があります。 したがって、考えられるエラーの平均、つまり平均サンプルエラーを決定します。
それは何に依存していますか 平均サンプリングエラー?ランダム選択の原則に従い、平均サンプリングエラーは主に決定されます サンプルサイズ:母集団が大きいほど、平均サンプリング誤差は小さくなります。 一般母集団の単位数を増やしてサンプル調査をカバーすることで、母集団全体をますます正確に特徴付けることができます。
平均サンプリング誤差も 変動の程度特性を研究しました。 ご存知のように、変動の程度は分散によって特徴付けられますか? 2または w(1-w)-- 代替機能について。 特徴の変動が小さいほど、したがって分散が小さいほど、平均サンプリング誤差は小さくなり、逆もまた同様です。 分散がゼロの場合(属性は変化しません)、平均サンプリング誤差はゼロです。つまり、一般母集団の任意の単位が、この属性に従って母集団全体を正確に特徴付けます。
平均サンプリング誤差の体積への依存性と特徴の変化の程度は、一般的な特性( x、p)は不明であるため、式(form。1)、(form。2)から直接実際のサンプリング誤差を見つけることはできません。
W ランダム選択あり 平均誤差理論的には、次の式で計算されます。
* 平均量的形質について
* シェア用(代替特性)
事実上、一般集団における属性の分散以来? 2は正確にはわからないが、実際には、大数の法則に基づいてサンプル母集団に対して計算された分散S 2の値を使用します。これによれば、サンプルサイズが十分に大きいサンプル母集団は、一般人口。
この上、 計算式 真ん中 サンプリングエラー ランダムリサンプリングは次のようになります。
* 平均量的形質について
* シェア用(代替特性)
ただし、サンプル母集団の分散は一般母集団の分散と等しくないため、式(フォーム5)および(フォーム6)を使用して計算された平均サンプリング誤差は概算になります。 しかし、確率論では、一般的な分散は選択科目を通じて次の関係で表されることが証明されています。
なぜなら P/(n-1)十分に大きい場合 P---値が1に近い場合、平均サンプリング誤差の実際の計算では、式(form。5)および(form。6)を使用できると想定できます。 また、サンプルが小さい場合(サンプルサイズが30を超えない場合)にのみ、係数を考慮する必要があります。 P/(n-1)そして計算する 小さなサンプルの平均誤差式によると:
W X ランダムな非反復選択 上記の平均サンプリング誤差の計算式では、非反復サンプリングの過程で一般母集団のユニット数が減少するため、ルート式に1-(n / N)を掛ける必要があります。 したがって、非反復的な選択の場合 計算式 平均サンプリング誤差 次の形式を取ります。
* 平均量的形質について
* シェア用(代替特性)
。 (フォーム10)
なぜなら P常に少ない N、次に追加の係数1-( n / N) 常に1未満になります。 このことから、非反復選択の場合の平均誤差は、反復選択の場合よりも常に小さくなります。 同時に、サンプルの割合が比較的小さい場合、この係数は1に近くなります(たとえば、5%のサンプルでは0.95、2%のサンプルでは0.98など)。 したがって、実際には、式(フォーム5)および(フォーム6)を使用して、指定された乗数なしで平均サンプリング誤差を決定しますが、サンプルは非反復サンプルとして編成されます。 これは、一般人口Nのユニット数が不明または無制限の場合、または次の場合に発生します。 Pに比べてごくわずか N、そして本質的に、1に近い値の追加係数の導入は、平均サンプリング誤差の値に実質的に影響を与えません。
機械的サンプリング 一般からのサンプル内のユニットの選択は、ニュートラル基準によって等間隔(グループ)に分割され、サンプル内のそのような各グループから1つのユニットのみが選択されるように実行されるという事実にあります。 系統的なエラーを回避するために、各グループの中央にあるユニットを選択する必要があります。
機械的選択を整理する場合、母集団の単位は、特定の順序で(たとえば、アルファベット順で、場所ごとに、関連付けられていないインジケーターの値の昇順または降順で)事前に配置されます(通常はリスト内)調査中の物件等)等)、その後、一定の間隔で一定数のユニットを機械的に選定します。 この場合、一般母集団の間隔のサイズは、サンプルシェアの逆数に等しくなります。 したがって、2%のサンプルでは、50ユニットごと(1:0.02)が選択され、チェックされます。5%のサンプルでは、20ユニット(1:0.05)ごとに、たとえば、マシンから詳細が降順になります。
母集団が十分に多い場合、結果の精度に関する機械的な選択は適切なランダムに近くなります。 したがって、機械的サンプルの平均誤差を決定するために、自己ランダムな非反復サンプリングの式が使用されます(フォーム9)、(フォーム10)。
異種の母集団からユニットを選択するには、いわゆる 典型的なサンプル , これは、一般集団のすべてのユニットを、調査中の指標に影響を与える特性に応じて、質的に均質で類似したいくつかのグループに分割できる場合に使用されます。
企業を調査する場合、そのようなグループは、たとえば、業界やサブセクターの所有形態になります。 次に、各典型的なグループから、サンプルへのユニットの個々の選択は、適切なランダムまたは機械的なサンプルによって行われます。
典型的なサンプルは、通常、複雑な母集団の研究で使用されます。 たとえば、経済の特定のセクターの労働者と従業員の家族予算のサンプル調査では、資格によって別々のグループで表される、企業の労働者の労働生産性。
一般的なサンプルでは、サンプルセット内の単位を選択する他の方法と比較して、より正確な結果が得られます。 一般母集団の類型化により、そのようなサンプルの代表性、その中の各類型グループの表現が保証され、平均サンプル誤差に対するグループ間分散の影響を排除することが可能になります。
決定するとき 典型的なサンプルの平均誤差変動の指標としては グループ内分散の平均。
平均サンプリング誤差 次の式で求められます。
* 平均量的形質について
(再選択); (フォーム11)
(不可逆的な選択); (フォーム12)
* シェア用(代替特性)
(再選択); (form.13)
(非反復選択)、(フォーム.14)
ここで、はサンプル母集団のグループ内分散の平均です。
サンプル母集団のシェア(代替特性)のグループ内分散の平均。
シリアルサンプリング 個々のユニットではなく、それらの等しいグループ(ネスト、シリーズ)の一般的な母集団からランダムに選択して、そのようなグループでの観察を例外なくすべてのユニットに適用します。
シリアルサンプリングの使用は、輸送、保管、販売のための多くの商品がパックやボックスなどに梱包されているためです。 したがって、パッケージ商品の品質を管理する場合、すべてのパッケージから必要な量の商品を選択するよりも、複数のパッケージ(シリーズ)をチェックする方が合理的です。
グループ(シリーズ)内では、例外なくすべてのユニットが検査されるため、平均サンプリングエラー(等しいシリーズを選択した場合)は、グループ間(シリーズ間)の分散のみに依存します。
W 平均スコアの平均サンプリング誤差 シリアル選択中、それらは次の式で求められます。
(再選択); (form.15)
(非反復選択)、(フォーム.16)
どこ r-選択したシリーズの数。 R-エピソードの総数。
連続標本のグループ間分散は、次のように計算されます。
平均はどこですか 私-thシリーズ; -サンプル母集団全体の共同海損。
W シェアの平均サンプリングエラー(代替機能) シリアル選択:
(再選択); (フォーム17)
(非反復選択)。 (フォーム18)
グループ間(シリーズ間) シリアルサンプルシェアの分散式によって決定されます:
、(フォーム.19)
の機能のシェアはどこにありますか 私第3シリーズ; -サンプル全体における特性の合計シェア。
統計調査の実施では、以前に検討された選択方法に加えて、それらの組み合わせが使用されます (組み合わせた選択)。
選択的観察の概念。
統計的観測方法では、母集団のすべての単位をカバーする連続的観測と選択的(非連続的)の2つの観測方法を使用できます。
サンプリングとは、ランダム選択の方法に基づいて、その一部の母集団の一般化指標の確立に関連する調査方法を意味します。
選択的観察では、母集団全体の比較的小さな部分(5〜10%)が検査の対象になります。
調べられる全体はと呼ばれます 一般人口.
調査の対象となる一般人口から選択されたユニットの部分は、 サンプル母集団またはサンプル。
一般母集団とサンプル母集団を特徴付ける指標:
1)代替標識の共有。
で 人口いくつかの代替機能を備えたユニットの割合は、文字「P」で示されます。
で サンプリングフレーム代替属性を持つユニットの割合は、文字「w」で示されます。
2)標識の平均サイズ。
で 人口フィーチャの平均サイズは文字で示されます(共同海損)。
で サンプリングフレーム特徴の平均サイズは文字で示されます(サンプル平均)。
サンプリングエラーの定義。
選択的観測は、一般母集団の単位をサンプルに取り込む可能性が等しいという原則に基づいています。 これにより、体系的な観測誤差が回避されます。 ただし、調査対象の母集団はさまざまな特性を持つユニットで構成されているため、サンプルの構成は一般的な母集団の構成とは異なり、一般的な特性とサンプルの特性の間に不一致が生じる可能性があります。
このような不一致は、代表性エラーまたはサンプリングエラーと呼ばれます。
サンプリング誤差の決定は、選択的観測中に解決される主なタスクです。
数理統計では、平均サンプリング誤差は次の式で決定されることが証明されています。
ここで、mはサンプリングエラーです。
s 2 0は、一般母集団の分散です。
nはサンプルユニットの数です。
実際には、サンプリング分散s 2は、平均サンプリング誤差を決定するために使用されます。
一般分散と標本分散の間には同等性があります。
(2).
式(2)から、一般的な分散はサンプルの分散よりも値()だけ大きいことがわかります。 ただし、サンプルサイズが十分に大きい場合、この比率は1に近いため、次のように記述できます。
ただし、平均サンプリング誤差を決定するためのこの式は、リサンプリングにのみ適用できます。
実際には、通常使用されます 非反復選択また、平均サンプリング誤差は、調査の過程でサンプルサイズが縮小するため、わずかに異なる方法で計算されます。
(4)
ここで、nはサンプルのサイズです。
Nは一般的な人口のサイズです。
s2-サンプル分散。
代替機能の割合については、 再選択なし次の式で決定されます。
(5)、ここで
w(1-w)-代替機能のサンプルシェアの平均誤差。
wは、サンプル母集団の代替機能のシェアです。
で 再選択代替機能のシェアの平均誤差は、次の式で決定されます。
(6)
もし サンプルサイズが5%を超えない、サンプルシェアとサンプル平均の平均誤差は、簡略化された式(3)と(6)によって決定されます。
サンプル平均(x)とサンプルシェア(w)に基づいて、一般平均(x)と一般シェア(P)の可能な値を確立するには、サンプル平均とサンプルシェアの平均誤差を決定する必要があります。
共同海損が存在する可能性のある値の1つは、次の式によって決定されます:
一般的なシェアの場合、この間隔は次のように記述できます。 :
(8)
このようにして得られた一般母集団のシェアと平均の特性は、サンプルシェアとサンプル平均の値とは異なります。 m。ただし、これは完全に確実に保証されるわけではなく、ある程度の確率でのみ保証されます。
数理統計では、一般平均とサンプル平均の特性の値の限界が次のように異なることが証明されています m 0.683の確率でのみ。 したがって、1000件中683件の場合のみ、共同海損は x = x m x、それ以外の場合は、これらの制限を超えます。
t倍に増加した平均サンプリング誤差を測定することにより、偏差の限界を拡大することにより、判断の確率を高めることができます。
係数tは信頼係数と呼ばれます。 これは、研究の結果を保証するために必要な信頼水準に応じて決定されます。
数学者A.M.Lyapushevは、tのさまざまな値を計算しました。これらの値は、通常、既製の表に記載されています。