回帰分析は、確率変数の変数への依存性を研究するための統計的手法です。 Excel での回帰: 方程式、例

回帰分析の目的は、従属変数と 1 つ (対回帰分析) または複数 (複数) の独立変数の間の関係を測定することです。 独立変数は、階乗変数、説明変数、決定変数、回帰変数、予測変数とも呼ばれます。

従属変数は、定義変数、説明変数、または「応答」変数と呼ばれることもあります。 実証研究において回帰分析が非常に広く使用されているのは、それが仮説を検証するための便利なツールであるという事実だけによるものではありません。 回帰、特に重回帰は、効果的なモデリングおよび予測手法です。

より単純なペア法を使用した回帰分析の原理を説明しましょう。

一対回帰分析

回帰分析を使用する場合の最初のステップは、相関係数を計算するフレームワークで行うステップとほぼ同じです。 ピアソン法を使用した相関分析が有効であるための 3 つの主な条件、つまり変数の正規分布、変数の間隔測定、変数間の線形関係は、重回帰にも関連します。 したがって、最初の段階では、散布図が作成され、変数の統計的かつ記述的な分析が実行され、回帰直線が計算されます。 相関分析のフレームワークと同様に、回帰直線は最小二乗法を使用して構築されます。

2 つのデータ分析方法の違いをより明確に説明するために、変数「SPS サポート」と「農村人口シェア」を使用してすでに検討した例に目を向けましょう。 元のデータは同一です。 散布図の違いは、回帰分析では従属変数 (この場合は「SPS サポート」) を Y 軸に沿ってプロットするのが正しいのですが、相関分析ではそれは問題ではないことです。 外れ値を除去した後の散布図は次のようになります。

回帰分析の基本的な考え方は、回帰直線の形で変数の一般的な傾向を把握し、独立変数の値を使用して従属変数の値を予測できるということです。

普通の数学的な一次関数を想像してみましょう。 ユークリッド空間の任意の直線は次の式で記述できます。

ここで、a は y 軸に沿ったオフセットを指定する定数です。 b - 線の角度を決定する係数。

傾きと定数がわかれば、任意の x に対する y の値を計算 (予測) できます。

この最も単純な関数は回帰分析モデルの基礎を形成しましたが、y の値は正確ではなく、特定の信頼区間内、つまり y の値を予測することに注意してください。 約。

定数は、回帰直線と y 軸の交点 (F 切片、通常、統計パッケージでは「切片」と呼ばれます) です。 SPS に投票する例では、四捨五入された値は 10.55 になります。 傾き係数 b は、約 -0.1 に等しくなります (相関分析と同様、符号は関係のタイプ (直接または逆) を示します)。 したがって、結果のモデルは SP C = -0.1 x Sel のようになります。 私たち。 +10.55。

したがって、農村人口の割合が 47% である「アディゲ共和国」の場合、予測値は 5.63 になります。

ATP \u003d -0.10 x 47 + 10.55 \u003d 5.63。

元の値と予測値の差は残差と呼ばれます(分割表を分析するときに、統計の基本であるこの用語にすでに遭遇しました)。 したがって、アディゲ共和国の場合、余りは 3.92 - 5.63 = -1.71 となります。 剰余のモジュロ値が大きいほど、値の予測精度は低くなります。

すべてのケースの予測値と残差を計算します。
ハプニング 土曜日 私たち。 THX

(オリジナル)

THX

(予想)

遺跡
アディゲ共和国 47 3,92 5,63 -1,71 -
アルタイ共和国 76 5,4 2,59 2,81
バシコルトスタン共和国 36 6,04 6,78 -0,74
ブリヤート共和国 41 8,36 6,25 2,11
ダゲスタン共和国 59 1,22 4,37 -3,15
イングーシ共和国 59 0,38 4,37 3,99
等。

初期値と予測値の比率の分析は、結果として得られるモデルの品質、その予測能力を評価するのに役立ちます。 回帰統計の主な指標の 1 つは、従属変数の元の値と予測値の間の相関係数である多重相関係数 R です。 一対回帰分析では、従属変数と独立変数の間の通常のピアソン相関係数 (この場合は 0.63) に等しくなります。 複数の R を有意義に解釈するには、それを決定係数に変換する必要があります。 これは相関分析と同じ方法、つまり二乗法で行われます。 決定係数 R 二乗 (R 2) は、独立 (独立) 変数によって説明される従属変数の変動の割合を示します。

私たちの場合、R 2 = 0.39 (0.63 2); これは、変数「農村人口の割合」が変数「CPS への支持率」の変動の約 40% を説明することを意味します。 決定係数の値が大きいほど、モデルの品質が高くなります。

モデルの品質を測るもう 1 つの尺度は、推定の標準誤差です。 これは、点が回帰直線の周囲にどの程度「散在」しているかを示す尺度です。 間隔変数の分散の尺度は標準偏差です。 したがって、推定値の標準誤差は残差の分布の標準偏差です。 値が大きいほどスプレッドが大きくなり、モデルが悪化します。 この場合、標準誤差は 2.18 です。 この量により、変数「SPS サポート」の値を予測するときにモデルが「平均して誤差」を生じます。

回帰統計には分散分析も含まれます。 その助けを借りて、次のことがわかります。 1) 従属変数の変動 (分散) のどの割合が独立変数によって説明されるか。 2) 従属変数の分散のうち、残差 (説明されていない部分) が占める割合。 3) これら 2 つの値の比 (/ "-比) は何ですか。分散統計は標本研究にとって特に重要です。これは、一般集団における独立変数と従属変数の間に関係がある可能性がどの程度であるかを示します。ただし、 、継続的な研究の場合(この例のように)、この場合、明らかになった統計パターンがランダムな状況の偶然によって引き起こされたものであるかどうか、調査対象の集団が置かれている複雑な条件に対してそれがどの程度特徴的であるかがチェックされます。つまり、得られた結果は、より広範な一般集合体に対しては真実ではなく、その規則性の程度、ランダムな影響からの自由であることが確立されています。

私たちの場合、分散統計の分析は次のようになります。

SS DF MS F 意味
退行。 258,77 1,00 258,77 54,29 0.000000001
残り 395,59 83,00 L,11
合計 654,36

F 比 54.29 は、0.0000000001 レベルで重要です。 したがって、帰無仮説 (見つかった関係はランダムであるという仮説) を安全に棄却できます。

同様の機能が t 基準によって実行されますが、回帰係数 (角度および F 交差) に関して実行されます。 基準 / を使用して、一般母集団の回帰係数がゼロに等しいという仮説を検定します。 私たちの場合でも、自信を持って帰無仮説を棄却できます。

重回帰分析

重回帰モデルは一対回帰モデルとほぼ同じです。 唯一の違いは、いくつかの独立変数が線形関数に順番に含まれていることです。

Y = b1X1 + b2X2 + …+ bpXp + a。

独立変数が 3 つ以上ある場合、それらの関係を視覚的に表現することはできません。この点で、重回帰は一対回帰よりも「視覚的」ではありません。 2 つの独立変数がある場合、データを 3D 散布図で表示すると便利です。 専門的な統計ソフトウェア パッケージ (Statistica など) には、3 次元グラフを回転するオプションがあり、データ構造を適切に視覚的に表現できます。

重回帰を使用する場合は、一対回帰とは異なり、分析アルゴリズムを決定する必要があります。 標準アルゴリズムには、最終回帰モデルに利用可能なすべての予測子が含まれています。 ステップバイステップ アルゴリズムは、説明的な「重み」に基づいて、独立変数を順次包含 (除外) することを前提としています。 段階的手法は、独立変数が多数ある場合に適しています。 率直に言って弱い予測子のモデルを「浄化」し、モデルをよりコンパクトで簡潔にします。

重回帰の正しさ (区間、正規性、線形性と同様) の追加条件は、多重共線性がないこと、つまり独立変数間の強い相関関係が存在することです。

重回帰統計の解釈には、一対回帰の場合に考慮したすべての要素が含まれます。 さらに、重回帰分析の統計には他にも重要な要素があります。

ロシアの地域における選挙活動のレベルの違いを説明する仮説を検証する例について、重回帰を使用した作業を説明します。 特定の実証研究は、投票率が以下の影響を受けることを示唆しています。

国家要因 (変数「ロシア人口」。ロシア連邦の構成主体におけるロシア人口の割合として運用されます)。 ロシア人口に占める割合の増加は投票率の低下につながると考えられている。

都市化係数 (変数「都市人口」。ロシア連邦の構成主体における都市人口の割合として運用されており、相関分析の一部としてこの係数をすでに使用しています)。 都市部人口の割合の増加も投票率の低下につながると考えられる。

従属変数 - 「選挙活動の激しさ」 (「アクティブ」) は、1995 年から 2003 年までの連邦選挙における各地域の平均投票率データによって操作されます。2 つの独立変数と 1 つの従属変数の初期データ テーブルは次の形式になります。 :

ハプニング 変数
資産。 ゴル。 私たち。 ロシア。 私たち。
アディゲ共和国 64,92 53 68
アルタイ共和国 68,60 24 60
ブリヤート共和国 60,75 59 70
ダゲスタン共和国 79,92 41 9
イングーシ共和国 75,05 41 23
カルムイク共和国 68,52 39 37
カラチャイ・チェルケス共和国 66,68 44 42
カレリア共和国 61,70 73 73
コミ共和国 59,60 74 57
マリ・エル共和国 65,19 62 47

等。 (排出物浄化後、88件中83件が残る)

モデルの品質を説明する統計:

1. 複数の R = 0.62; L二乗 = 0.38。 したがって、国家的要因と都市化の要因を合わせると、変数「選挙活動」の変動の約 38% が説明されます。

2. 平均誤差は 3.38 です。 このように、投票率のレベルを予測する際に、構築されたモデルが「平均して」どのように間違っているかがわかります。

3. 説明された変動と説明されていない変動の /l 比は、0.000000003 のレベルで 25.2 です。 明らかにされた関係のランダム性に関する帰無仮説は棄却されます。

4. 変数「都市人口」と「ロシア人口」の定数係数と回帰係数の基準 / は、0.0000001 のレベルで有意です。 それぞれ0.00005と0.007。 係数のランダム性に関する帰無仮説は棄却されます。

従属変数の初期値と予測値の比率の分析に役立つ追加の統計は、マハラノビス距離とクック距離です。 1 つ目は、ケースの一意性の尺度です (特定のケースのすべての独立変数の値の組み合わせが、同時にすべての独立変数の平均値からどの程度逸脱しているかを示します)。 2 つ目は、事件の影響の尺度です。 観測値が異なれば回帰直線の傾きにさまざまな影響が与えられ、クック距離を使用すると、この指標に従ってそれらを比較できます。 これは、外れ値をクリーンアップするときに役立ちます (外れ値は、影響力が強すぎるケースと考えることができます)。

私たちの例では、ダゲスタンはユニークで影響力のあるケースの 1 つです。

ハプニング イニシャル

価値観

プレドスカ

価値観

遺跡 距離

マハラノビス

距離
アディゲ 64,92 66,33 -1,40 0,69 0,00
アルタイ共和国 68,60 69.91 -1,31 6,80 0,01
ブリヤート共和国 60,75 65,56 -4,81 0,23 0,01
ダゲスタン共和国 79,92 71,01 8,91 10,57 0,44
イングーシ共和国 75,05 70,21 4,84 6,73 0,08
カルムイク共和国 68,52 69,59 -1,07 4,20 0,00

実際の回帰モデルには次のパラメータがあります: Y 切片 (定数) = 75.99。 b(水平、土曜日)\u003d -0.1; b (ロシア連邦) = -0.06。 最終的な式:

非アクティブ、= -0.1 x 時間。 sat.n+- 0.06 x Rus. 土曜日 + 75.99。

係数 61 の値に基づいて予測子の「説明力」を比較できますか。この場合、両方の独立変数が同じパーセンテージ形式であるため、はいです。 ただし、ほとんどの場合、重回帰はさまざまな尺度で測定された変数 (たとえば、ルーブル単位の収入レベルや年齢単位) を扱います。 したがって、一般的な場合、回帰係数によって変数の予測能力を比較することは正しくありません。 重回帰統計では、この目的のために、独立変数ごとに個別に計算される特別なベータ係数 (B) が存在します。 これは部分的な (他のすべての予測子の影響を考慮した後に計算された) 因子応答相関係数であり、応答値の予測に対する因子の独立した寄与を示します。 ペアごとの回帰分析では、当然のことながら、ベータ係数は従属変数と独立変数の間のペアごとの相関係数に等しくなります。

この例では、ベータ (Hor. nas.) = -0.43、beta (Russian nas.) = -0.28 です。 したがって、どちらの要因も選挙活動のレベルに悪影響を及ぼしますが、都市化要因の重要性は国家要因の重要性よりも大幅に高くなります。 両方の要因の複合効果により、変数「選挙活動」の変動の約 38% が決まります (L 二乗値を参照)。

回帰分析

回帰 (線形) 分析- 従属変数に対する 1 つ以上の独立変数の影響を研究するための統計的手法。 独立変数は回帰変数または予測変数とも呼ばれ、従属変数は基準と呼ばれます。 用語 依存そして 独立した変数は、変数の数学的依存性のみを反映します ( スプリアス相関を参照)、因果関係ではなく。

回帰分析の目標

  1. 予測変数 (独立変数) による基準 (従属) 変数の変動の決定性の程度の決定
  2. 独立変数を使用した従属変数の値の予測
  3. 従属変数の変動に対する個々の独立変数の寄与の決定

回帰分析は、変数間に関係があるかどうかを判断するために使用できません。そのような関係が存在することが分析を適用するための前提条件であるためです。

回帰の数学的定義

厳密な回帰依存は次のように定義できます。 を、与えられた同時確率分布を持つ確率変数とします。 値のセットごとに条件付き期待値が定義されている場合

(一般回帰式)、

その後関数が呼び出されます 回帰 Y値別の値とそのグラフ - 回帰直線によって、または 回帰方程式.

への依存性は、変化したときの Y の平均値の変化に現れます。 値の固定セットごとに、量は一定の分散を持つ確率変数のままです。

回帰分析が変化に伴うYの変化をどの程度正確に推定するかという問題を明確にするために、Yの分散の平均値がさまざまな値のセットに使用されます(実際、私たちは分散の尺度について話しています)。回帰直線の周りの従属変数)。

最小二乗法(係数の計算)

実際には、回帰直線は、目的の曲線を最もよく近似する線形関数 (線形回帰) として求められることがほとんどです。 これは、推定値から実際に観察された値の二乗偏差の合計が最小化される場合に、最小二乗法を使用して行われます (つまり、望ましい回帰依存性を表すと主張される直線を使用した推定値を意味します)。

(M - サンプルサイズ)。 このアプローチは、上の式に現れる合計が、 の場合に正確に最小値を取るというよく知られた事実に基づいています。

最小二乗法による回帰分析の問題を解決するために、概念が導入されます。 残差関数:

残差関数の最小値の条件:

結果として得られるシステムは、未知数を含む線形方程式系です。

方程式の左辺の自由項を行列で表すと

行列の右側の未知数の係数

次に、行列方程式を取得します。これは、ガウス法で簡単に解けます。 結果の行列は、回帰直線方程式の係数を含む行列になります。

最良の推定値を取得するには、LSM の前提条件 (ガウス-マルコフ条件) を満たす必要があります。 英語の文献では、このような推定値は、BLUE (Best Linear Unbiased Estimators)、つまり最良の線形不偏推定値と呼ばれています。

回帰パラメータの解釈

パラメータは偏相関係数です。 は、残りの予測子の影響を固定することによって説明される Y の分散の割合として解釈されます。つまり、Y の説明に対する個々の寄与を測定します。相関のある予測子の場合、推定値の不確実性の問題があります。 、予測子がモデルに含まれる順序に依存します。 このような場合には、相関分析や段階回帰分析といった分析手法を適用する必要があります。

回帰分析の非線形モデルについて話す場合、独立変数の非線形性 (形式的な観点からは、簡単に線形回帰に帰着します) について話しているのか、推定パラメータの非線形性について話しているのかに注意を払うことが重要です。 (深刻な計算上の困難を引き起こします)。 最初のタイプの非線形性では、意味のある観点から、 、 の形式のメンバーのモデル内の外観を特定し、特徴間の相互作用の存在などを示すことが重要です (多重共線性を参照)。

こちらも参照

リンク

  • www.kgafk.ru - 「回帰分析」に関する講義
  • www.basegroup.ru - 回帰モデルの変数を選択する方法

文学

  • ノーマン・ドレイパー、ハリー・スミス回帰分析を応用しました。 重回帰 = 応用回帰分析。 - 第 3 版 - M .: 「弁証法」、2007. - S. 912. - ISBN 0-471-17082-8
  • 統計モデルを推定するための持続可能な方法: モノグラフ。 - K. : PP "Sansparelle"、2005. - S. 504. - ISBN 966-96574-0-7、UDC: 519.237.5:515.126.2、LBC 22.172 + 22.152
  • ラドチェンコ・スタニスラフ・グリゴリエヴィチ、回帰分析方法論: モノグラフ。 - K. : "Korniychuk"、2011. - S. 376. - ISBN 978-966-7599-72-0

ウィキメディア財団。 2010年。

第 4 章の内容を学習した結果、生徒は次のことを行う必要があります。

知る

  • 回帰分析の基本概念。
  • 最小二乗法の推定方法と推定の性質。
  • 有意性検定と方程式と回帰係数の区間推定の基本ルール。

できる

  • サンプルデータから回帰式の二次元および複数のモデルのパラメータの推定値を見つけ、それらの特性を分析します。
  • 方程式の重要性と回帰係数を確認します。
  • 重要なパラメータの間隔推定値を見つけます。

自分の

  • 二次元回帰式および重回帰式のパラメータを統計的に推定するスキル。 回帰モデルの適切性をチェックするスキル。
  • 分析ソフトウェアを使用して、すべての重要な係数を含む回帰式を取得するスキル。

基本概念

相関分析を実施した後、変数間の統計的に有意な関係の存在が特定され、その緊密さの程度が評価されると、通常、回帰分析手法を使用して依存関係の種類を数学的に説明します。 この目的のために、有効なインジケーターをリンクする関数のクラスが選択されます。 および引数は、制約式のパラメータの推定値を計算し、結果として得られる式の精度を分析します。

関数| 有効特徴量の条件付き平均値の依存性を記述する 引数の指定された値から、呼び出されます 回帰方程式。

「回帰」という用語(緯度から) 回帰-後退、何かに戻る)は、英国の心理学者で人類学者のF.ゴルトンによって紹介され、彼の最初の例の1つと関連付けられています。ゴルトンは、成長の遺伝の問題に関連する統計データを処理して、身長が高ければ、身長が高ければ、次のことを発見しました。父親はすべての父親の平均身長から逸脱している バツインチの場合、息子の身長はすべての息子の平均身長から 未満離れています。 バツインチ 特定されたトレンドに名前が付けられました 平均への回帰。

「回帰」という用語は統計文献で広く使用されていますが、多くの場合、統計的依存性を正確に特徴付けるものではありません。

回帰式を正確に説明するには、有効指標の分布に関する条件付き法則を知る必要があります。 やあ。統計の実践では、通常、そのような情報を取得することは不可能であるため、関数の適切な近似値を見つけることに限定されます。 f(xあなた バツ 2, .... l *)、現象の予備的な意味のある分析または元の統計データに基づいています。

指標のベクトルの分布の種類に関する個々のモデルの仮定の枠組み内で<) может быть получен общий вид 回帰式、 どこ。 たとえば、研究対象の指標セットが数学的期待値のベクトルを持つ () 次元の正規分布則に従うと仮定すると、

ここで、共分散行列により、

差異はどこにありますか そう、

回帰式 (条件付き期待値) の形式は次のとおりです。

したがって、多変量確率変数の場合 ()

() 次元の正規分布の法則に従い、有効指標の回帰式に従う 説明変数には線形入力があります バツビュー。

ただし、統計の実践では、通常、未知の真の回帰関数の適切な近似値を見つけることに限定する必要があります。 f(x)、研究者は、分析されたパフォーマンス指標の確率分布の条件法則について正確な知識を持っていないため、 引数の指定された値に対して バツ。

真の推定値、モデル推定値、および回帰推定値の間の関係を考慮してください。 パフォーマンス指標を使ってみましょう 引数に関連する バツ比率

さらに、ここで は正規分布則を持つ確率変数です。 この場合の真の回帰関数は次のとおりです。

真の回帰方程式の正確な形式は分からないが、図 1 に示す関係によって関連付けられた 2 次元の確率変数に関する 9 つの観測値があると仮定します。 4.1.

米。 4.1. 真の相対位置f(x) そして理論的おお回帰モデル

図の点の位置。 4.1 では、次の形式の線形依存関係のクラスに限定することができます。

最小二乗法を使用して、回帰式の推定値を求めます。

比較のために、図に示します。 4.1に真の回帰関数と理論近似回帰関数のグラフを示します。 回帰式の推定値は確率的に後者に収束します。 おおサンプルサイズは無制限に増加します()。

私たちは真の回帰関数ではなく誤って線形回帰関数を選択してしまいましたが、残念なことに、これは統計研究の実践では非常に一般的なことであり、統計的な結論と推定値には一貫性の特性がありません。 観測量をいかに増やしても、サンプル推定値は真の回帰関数に収束しません。

回帰関数のクラスを正しく選択していれば、次を使用した記述の不正確さはなくなります。 おおサンプルの制限によってのみ説明されるため、サンプルを任意に小さくすることができます。

有効指標の条件値と未知の回帰関数を初期統計データから最適に復元するには、以下が最もよく使用されます。 十分性基準損失関数。

1. 最小二乗法、それに応じて、モデル値からの有効指標の観測値の二乗偏差が最小化されます。ここで、回帰式の係数は、「-M 観測」の引数のベクトルの値です。 :

ベクトルの推定値を見つける問題は解決されつつあります。 結果として得られる回帰は次のように呼ばれます。 正方形を意味します。

2. 最小モジュール法、それに従って、モジュラー値からの有効なインジケーターの観察値の絶対偏差の合計が最小化されます。

結果として得られる回帰は次のように呼ばれます。 絶対的な意味(中央値)。

3. ミニマックス法有効指標の観測値の最大偏差モジュールを最小化するために削減されます。 そう、モデル値から、つまり

結果として得られる回帰は次のように呼ばれます。 ミニマックス。

実際のアプリケーションでは、確率変数を調べる問題がよく発生します。 そう、いくつかの変数と未知のパラメータのセットに依存します。 () を次のように考えます。 (k + 1) 次元の一般母集団。そこからボリュームのランダムなサンプルが抽出されます。 P、ここで、() は / 番目の観測結果です。 観測結果に基づいて未知のパラメータを推定する必要があります。 上記のタスクは、回帰分析のタスクを指します。

回帰分析 確率変数の依存性の統計分析のメソッドを呼び出す 真の分布法則に関係なく、回帰分析で非ランダム変数として考慮される変数から

統計モデリングにおいて、回帰分析は変数間の関係を評価するために使用される研究です。 この数学的手法には、従属変数と 1 つ以上の独立変数の間の関係に焦点を当てた場合に、複数の変数をモデル化および分析するための他の多くの手法が含まれます。 より具体的には、回帰分析は、独立変数の 1 つが変化し、他の独立変数が固定されている場合に、従属変数の典型的な値がどのように変化するかを理解するのに役立ちます。

すべての場合において、ターゲット スコアは独立変数の関数であり、回帰関数と呼ばれます。 回帰分析では、従属変数の変化を回帰の関数として特徴付けることも重要であり、これは確率分布を使用して説明できます。

回帰分析のタスク

この統計調査手法は予測に広く使用されており、その使用には大きな利点がありますが、場合によっては錯覚や誤った関係につながる可能性があるため、この質問では慎重に使用することをお勧めします。たとえば、相関関係は意味するものではないためです。因果関係。

線形最小二乗回帰や通常最小二乗回帰など、パラメトリックな回帰分析を実行するための多数の方法が開発されています。 それらの本質は、回帰関数がデータから推定される有限数の未知のパラメーターに関して定義されることです。 ノンパラメトリック回帰では、その関数が特定の関数セット内に収まり、無限次元になる可能性があります。

統計調査手法としての回帰分析は、実際にはデータ生成プロセスの形式と、それが回帰アプローチとどのように関連するかによって異なります。 生成されるデータ プロセスの真の形式は通常未知の数であるため、データ回帰分析はプロセスに関する仮定にある程度依存することがよくあります。 十分なデータがあれば、これらの仮定をテストできる場合があります。 回帰モデルは、仮定が中程度に違反している場合でも、最高のパフォーマンスを発揮しない場合もありますが、多くの場合役立ちます。

狭い意味では、回帰は、分類に使用される離散応答変数とは対照的に、連続応答変数の推定を特に指します。 連続出力変数の場合は、関連する問題と区別するために、メトリック回帰とも呼ばれます。

回帰の最も初期の形式は、よく知られた最小二乗法です。 これは 1805 年にルジャンドルによって、1809 年にガウスによって出版されました。ルジャンドルとガウスは、この方法を、天体観測から太陽の周りの天体 (主に彗星ですが、後に新たに発見された小惑星) の軌道を決定する問題に適用しました。 ガウスは 1821 年に、ガウス-マルコフ定理の変形を含む最小二乗理論のさらなる発展を発表しました。

「回帰」という用語は、生物学的現象を説明するために 19 世紀にフランシス ゴルトンによって造られました。 結論としては、祖先の成長に伴う子孫の成長は、原則として通常の平均値まで後退するということです。 ゴルトンにとって、回帰はこの生物学的な意味のみを持っていましたが、後に彼の研究はウドニー・ヨーリーとカール・ピアソンによって取り上げられ、より一般的な統計的文脈に取り入れられました。 Yule と Pearson の研究では、応答変数と説明変数の同時分布はガウス分布であると考えられています。 この仮定は 1922 年と 1925 年の論文でフィッシャーによって否定されました。 Fisher は、応答変数の条件付き分布はガウス分布ですが、同時分布はガウス分布である必要はない、と提案しました。 この点において、フィッシャーの提案はガウスの 1821 年の公式に近いものです。 1970 年以前は、回帰分析の結果を得るまでに最大 24 時間かかることもありました。

回帰分析手法は、引き続き活発に研究されている分野です。 ここ数十年で、ロバスト回帰のための新しい手法が開発されました。 相関関係のある応答を含む回帰。 さまざまなタイプの欠損データに対応する回帰手法。 ノンパラメトリック回帰。 ベイジアン回帰法。 予測変数が誤差を伴って測定される回帰。 観察よりも多くの予測因子を含む回帰、および回帰による因果推論。

回帰モデル

回帰分析モデルには次の変数が含まれます。

  • 未知のパラメーター。ベータとして示され、スカラーまたはベクトルの可能性があります。
  • 独立変数、X.
  • 従属変数、Y.

回帰分析が適用されるさまざまな科学分野では、従属変数と独立変数の代わりにさまざまな用語が使用されますが、すべての場合において、回帰モデルは Y を X と β の関数に関連付けます。

近似は通常、E (Y | X) = F (X, β) の形式になります。 回帰分析を実行するには、関数 f の形式を決定する必要があります。 さらにまれに、データに依存せず、Y と X の関係に関する知識に基づいている場合もあります。 そのような知識が利用できない場合は、柔軟または便利なフォーム F が選択されます。

従属変数 Y

ここで、未知のパラメータ β のベクトルの長さが k であると仮定します。 回帰分析を実行するには、ユーザーは従属変数 Y に関する情報を提供する必要があります。

  • (Y, X) の形式の N 個のデータ ポイントが観察された場合、N は< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • 正確に N = K が観察され、関数 F が線形である場合、方程式 Y = F(X, β) は近似ではなく正確に解くことができます。 これは要するに、X が線形独立である限り、一意の解を持つ N 個の未知数 (β の要素) を使用して N 個の方程式のセットを解くことになります。 F が非線形の場合、解が存在しないか、多数の解が存在する可能性があります。
  • 最も一般的な状況は、データへの N > ポイントがある場合です。 この場合、データに最もよく適合する β の一意の値を推定するのに十分な情報がデータ内にあり、回帰モデルをデータに適用すると、β でオーバーライドされたシステムと見なすことができます。

後者の場合、回帰分析は次のツールを提供します。

  • 未知のパラメータ β の解を見つける。これにより、たとえば、Y の測定値と予測値の間の距離が最小化されます。
  • 特定の統計的仮定の下で、回帰分析は過剰な情報を使用して、未知のパラメーター β と従属変数 Y の予測値に関する統計情報を提供します。

必要な独立した測定の数

3 つの未知のパラメーター、β 0 、β 1 および β 2 を持つ回帰モデルを考えてみましょう。 実験者がベクトル X の独立変数の同じ値で 10 回の測定を行ったと仮定します。この場合、回帰分析では一意の値セットが得られません。 できる限りのことは、従属変数 Y の平均と標準偏差を推定することです。同様に、X の 2 つの異なる値を測定すると、2 つの未知数を含む回帰に十分なデータを得ることができますが、3 つ以上の未知数については得られません。

実験者の測定が独立ベクトル変数 X の 3 つの異なる値で行われた場合、回帰分析により β の 3 つの未知のパラメーターに対する一意の推定値のセットが得られます。

一般的な線形回帰の場合、上記のステートメントは、行列 X T X が可逆であるという要件と同等です。

統計的な仮定

測定値 N が未知パラメータ k および測定誤差 ε i の数より大きい場合、原則として、測定値に含まれる過剰な情報が分散され、未知パラメータに関する統計的予測に使用されます。 この過剰な情報は回帰の自由度と呼ばれます。

基本的な前提

回帰分析の古典的な前提には次のようなものがあります。

  • サンプリングは推論予測を表します。
  • 誤差は平均がゼロの確率変数であり、説明変数の条件付きです。
  • 独立変数は誤差なく測定されます。
  • 独立変数 (予測子) として、これらは線形独立です。つまり、どの予測子も他の予測子の線形結合として表現することはできません。
  • 誤差には相関がありません。つまり、対角線の誤差共分散行列とゼロ以外の各要素が誤差の分散となります。
  • 誤差の分散は観測値全体で一定です (均一分散性)。 そうでない場合は、重み付き最小二乗法または他の方法を使用できます。

最小二乗推定のこれらの十分条件には必要な特性があり、特にこれらの仮定は、特に線形推定のクラスで考慮された場合、パラメーター推定が客観的で一貫性があり、効率的であることを意味します。 実際のデータが条件を満たすことはほとんどないことに注意してください。 つまり、仮定が正しくない場合でもこの方法が使用されます。 仮定からの変動は、モデルがどれほど有用であるかを示す尺度として使用されることがあります。 これらの仮定の多くは、より高度な方法で緩和できます。 統計分析レポートには通常、サンプル データに対するテストの分析とモデルの有用性に関する方法論が含まれます。

また、変数は点位置で測定した値を指す場合があります。 変数には、統計的仮定に違反する空間傾向や空間的自己相関が存在する可能性があります。 地理的加重回帰は、そのようなデータを処理する唯一の方法です。

線形回帰の特徴は、従属変数 Y i がパラメーターの線形結合であることです。 たとえば、単純な線形回帰では、n 点モデリングは 1 つの独立変数 x i と 2 つのパラメーター β 0 および β 1 を使用します。

重回帰では、いくつかの独立変数またはその関数が存在します。

母集団からランダムにサンプリングすると、そのパラメータにより線形回帰モデルのサンプルを取得できます。

この点では、最小二乗法が最も一般的です。 これは、残差の二乗和を最小化するパラメーター推定を提供します。 この関数のこの種の最小化 (線形回帰に典型的なもの) により、一連の正規方程式とパラメーターを含む一連の線形方程式が得られ、これらを解いてパラメーター推定値を取得します。

さらに、母集団誤差は一般に伝播すると仮定すると、研究者はこれらの標準誤差の推定値を使用して信頼区間を作成し、そのパラメータに関する仮説検定を実行できます。

非線形回帰分析

関数がパラメーターに関して線形ではない例は、反復手順で二乗和を最小化する必要があることを示しています。 これにより、線形最小二乗法の違いと非線形最小二乗法の違いを定義する多くの複雑な問題が生じます。 したがって、非線形手法を使用した場合の回帰分析の結果は予測できない場合があります。

検出力とサンプルサイズの計算

ここでは、原則として、モデル内の独立変数の数と比較した観測値の数に関して一貫した方法はありません。 最初のルールは Dobra と Hardin によって提案され、N = t^n のようになります。ここで、N はサンプル サイズ、n は説明変数の数、t はモデルが説明変数は 1 つだけです。 たとえば、研究者は 1000 人の患者 (N) を含むデータセットを使用して線形回帰モデルを構築します。 研究者が、ライン (m) を正確に決定するには 5 つの観測値が必要であると判断した場合、モデルがサポートできる説明変数の最大数は 4 です。

その他の方法

回帰モデルのパラメーターは通常、最小二乗法を使用して推定されますが、それほど頻繁には使用されない他の方法もあります。 たとえば、次のような方法があります。

  • ベイズ法 (線形回帰のベイズ法など)。
  • パーセンテージ回帰は、エラーのパーセンテージを減らすことがより適切であると考えられる状況で使用されます。
  • 最小の絶対偏差。分位点回帰につながる外れ値が存在する場合により堅牢になります。
  • ノンパラメトリック回帰には、多数の観測と計算が必要です。
  • 指定された入力空間内で意味のある距離メトリックを検索するために学習される学習メトリックの距離。

ソフトウェア

すべての主要な統計ソフトウェア パッケージは、最小二乗回帰分析を使用して実行されます。 単純な線形回帰分析と重回帰分析は、一部のスプレッドシート アプリケーションや一部の電卓で使用できます。 多くの統計ソフトウェア パッケージは、さまざまな種類のノンパラメトリックで堅牢な回帰を実行できますが、これらの手法はあまり標準化されていません。 ソフトウェア パッケージが異なれば、実装されるメソッドも異なります。 特殊な回帰ソフトウェアは、調査分析や神経画像などの分野で使用するために開発されています。

回帰分析は、統計調査の最も一般的な方法の 1 つです。 これは、従属変数に対する独立変数の影響の程度を決定するために使用できます。 Microsoft Excel の機能には、この種の分析を実行するために設計されたツールが含まれています。 それらが何であるか、そしてそれらをどのように使用するかを見てみましょう。

ただし、回帰分析を行う機能を利用するには、まず分析パッケージを起動する必要があります。 そうすることで初めて、この手順に必要なツールが Excel リボンに表示されます。


タブに移動すると "データ"、ツールボックスのリボン上 "分析"新しいボタンが表示されます - "データ分析".

回帰分析の種類

回帰にはいくつかの種類があります。

  • 放物線状。
  • 力;
  • 対数;
  • 指数関数的;
  • デモンストレーション;
  • 双曲線。
  • 線形回帰。

Excel での最後のタイプの回帰分析の実装については、後ほど詳しく説明します。

Excel での線形回帰

例として、以下の表は、街路の毎日の平均気温と、対応する営業日の店舗の顧客数を示しています。 回帰分析を利用して、気温という気象条件が小売店の来店客数にどのような影響を与えるかを正確に調べてみましょう。

一般的な線形回帰方程式は次のようになります: Y = a0 + a1x1 + ... + axk。 この式では Yは、その影響を研究しようとしている変数を意味します。 私たちの場合、これは購入者の数です。 意味 バツ変数に影響を与えるさまざまな要因です。 オプション あるは回帰係数です。 つまり、特定の要素の重要性を決定します。 索引 kは、これらの同じ要素の合計数を示します。


分析結果分析

回帰分析の結果は、設定で指定した場所に表形式で表示されます。

主な指標の 1 つは、 R二乗。 モデルの品質を示します。 私たちの場合、この係数は 0.705、つまり約 70.5% です。 これは許容できるレベルの品質です。 0.5 未満の関係は不良です。

もう 1 つの重要な指標は、線の交点のセルにあります。 「Y字路」そしてコラム 「係数」。 ここでは、Y がどのような値を持つかを示します。この場合、これは購入者の数であり、他のすべての要素はゼロに等しいです。 この表では、この値は 58.04 です。

グラフの交点の値 「変数X1」そして 「係数」は、X に対する Y の依存性のレベルを示しています。この場合、これは店舗の顧客数の温度への依存性のレベルです。 係数 1.31 は、影響力を示すかなり高い指標であると考えられます。

ご覧のとおり、Microsoft Excel を使用して回帰分析テーブルを作成するのは非常に簡単です。 しかし、訓練を受けた人だけが、出力時に得られたデータを操作し、その本質を理解できるのです。

最近のセクション記事:

ソ連の写真フィルムの感度 英語の用語のアルファベット順索引
ソ連の写真フィルムの感度 英語の用語のアルファベット順索引

タイトル (英語): 産業オートメーション システムと統合。 製品データの表現と交換。 パート 203. アプリケーション プロトコル....

基本的なリソースの抽出
基本的なリソースの抽出

ゲームの開始 16 アルファ まずは、あなたの英語が苦手な場合 (私と同じように)、ローカライザーをダウンロードしてください。Steam のマニュアルに記載されていますが、...

基本資源の抽出 7 days to die レシピの入手場所
基本資源の抽出 7 days to die レシピの入手場所

皆さん、この記事では、7 Days To Die ゲームのセーブデータがどこに保存されているか、そしておそらくその後に私がセーブデータをどのように探したかをお話しします。