X
    Categories: 雑記

直線的な相関の強さを表す相関係数の定義とCORREL関数を使った求め方

相関係数はどうして必要なのでしょうか。また,どのような式で表され,どのように求めるのでしょうか。
  • 2つの量的変数の相関を調べる際,相関図を作成すると視覚的・直感的に相関関係の特徴を捉えられる。
  • しかし,相関の程度を表す言葉は数学的に定義されていないため,相関図だけでは説明は主観的になりやすい。数量化された指標が必要である。
  • 相関係数は,2つの量的変数の直線的な相関関係の方向と強さを数値で表すことができる。
  • 相関係数は,次の式で表され,「XとYの共分散」を「XとYの標準偏差の積」で除して求められる。
  • 相関係数は,Microsoft Excel で CORREL 関数を使うと簡単に求められる。

1 数量化の必要性

(1)結果の解釈が曖昧な相関図

2つの量的変数の相関関係を調べるとき,相関図を作成すると,視覚的・直感的に相関関係の特徴を捉えることができます。

しかしながら,相関図だけでは,相関関係の特徴の説明は,主観的になりやすく大まかで曖昧です。

例えば,下の資料数が同じ2つの相関図を比べたとき,相関関係の特徴をどのように捉えるでしょう。

左は「正の相関がある」,右は「強い正の相関がある」と解釈するかもしれません。正の相関があるという見方は共通しても,相関の強さについては捉え方に違いが生まれそうです。
ところが,上の2つの相関図については,相関の強さを表す相関係数は,ともに 0.74 です。同じ相関の強さです。

上記の場合に限らず,相関図の散らばり具合だけから相関関係を捉えると,結果の解釈は主観的になる傾向があります。

また,相関図を複数比較する場合,相関図だけで説明すると,相関の違いを他者に明確に伝えることは容易ではありません。相関の強さを明確には示せないからです。

相関図(散布図)と相関表の意味とエクセルを使った作り方

相関図の相関関係を言葉,数,図形で表現する方法

(2)相関関係を数量化する相関係数

このようなとき,データの特徴を数量化できれば,コンパクトで正確に客観性にある表現ができます。
そこで考え出されたのが,相関係数です。

下記は,煎茶の価格と全窒素量及び遊離アミノ酸の組成や含量との関係を検討した結果を報告した論文からの引用です。

テアニンと同様にうま味に関与するアミノ酸であるグルタミン酸では相関係数が0.45であり,価格と含量との間に高い相関は認められなかった。17種類のアミノ酸の中で価格と間に最も高い関係があったのは,相関係数が0.91のアルギニンであった。
向井 俊博, 堀江 秀樹, 後藤 哲久「煎茶の遊離アミノ酸と全窒素の含量と価格との関係について」J-STAGEトップ/茶業研究報告/1992年1992巻76号p.45-50
[ONLINE]https://www.jstage.jst.go.jp/article/cha1953/1992/76/1992_76_45/_article/-char/ja/(2018.11.7)

論文では,相関係数を用いて相関関係の強さを説明しています。

相関図を示さずとも相関係数を用いることで,相関係数 0.45 は強い正の相関とは言えず,相関係数 0.91 は強い正の相関があると,相関の強さの程度が読者にもよく分かります。

0.91 という相関係数は,そう頻繁には見かけない数値です。
テアニンは甘味・うま味,グルタミン酸はうま味,アルギニン酸は苦味に影響するそうです。
上記の引用文によれば,一般に,価格の高い高級煎茶ほど,そうでない煎茶より苦味が強いということになりそうです。
ですが,煎茶の味は様々な成分の量的バランスにより複合されて作り出されるので,実際の味は単純に説明できないと思われます。
砂糖に少し塩を入れるとより甘くなることは,食品学で言う「味覚の相乗効果・味覚の相殺効果」だそうです。この辺りについては,専門家の知識に頼らざるを得ません。

2 相関の強さの違いを表す指標

相関関係の強さを数量的に表すものに相関係数があります。
相関係数は,2つの量的変数の直線的な相関の方向と強さを数値で表すことができます。式は,下記の通りです。

(1)相関係数の定義

n個の変量の組を(xi,yi)(i=1,2,…,n)とするとき,

を変量XとYの間の相関係数という。大阪書籍「新数学事典」1979,P637R

上記の式の他に,次のような式表現で定義している文献があります。①〜④の式は,式変形をすれば同じです。
①と②の式は,相関係数が,「XとYの共分散」を「Xの標準偏差」と「Yの標準偏差」の積で除した値であることを意味した式です。

したがって,相関係数は,共分散と標準偏差から求められます。

③と④の式は,式を整理したものです。

(2)相関係数の性質

また,この相関係数については,次のことが成り立ちます。

  1. r の取りうる値の範囲は -1≦ r ≦ 1 である
  2. |r| = 1 となるのは,yi と xi の間に直線的な関係があるとき,すなわち,
    yi – (y-) = c ( x– (x-) ) ※(y-),(x-)は文字上に-表記。平均値
    (i=1,2,…,n) が成り立つような実数c (≠ 0) が存在するときかつそのときに限る
  3. r = 1 となるのは c > 0 のときかつ,r = -1 となるのは c < 0 のときかつそのときに限る

大阪書籍「新数学事典」1979,P637R

(3)相関の方向と強さの表現

  • |r| = 1 のとき完全相関,r = 0 のとき無相関,r > 0 のとき正の相関,r < 0 のとき負の相関という。
  • また,r の絶対値が 1 に近いほど相関が強いといわれる。

大阪書籍「新数学事典」1979,P637R






3 相関の程度を表す言葉による表現

関係の強さは,次のような言葉で表現されることがあります。

0.0 ≦ | r | ≦ 0.2 : ほとんど相関なし

0.2 < | r | ≦ 0.4 : 弱い相関あり

0.4 < | r | ≦ 0.7 : 比較的強い相関あり

0.7 < | r | ≦ 1.0 : 強い相関あり

しかしながら,「弱い」を「やや」,「比較的強い」を「かなりの」や「中程度の」とする文書があるなど,程度を表す言葉の表現は曖昧です。
さらに,「強い」についても「高い」と表現する文献が存在するなど,相関関係の言葉による表現は,明確にはされていません。

相関の程度を表す言葉については,「完全相関」「無相関」「正の相関」「負の相関」のように数学的に定義された言葉がないのが現状です。

このようなことから,相関図と併せて,相関の程度を表す数量化された相関係数を用いる必要性があると言えます。

4 エクセルによる簡単な相関係数の求め方

計算が複雑そうな相関係数ですが,Microsoft Excel を使うと簡単に求められます。

相関係数を求めにるには,CORREL 関数を使います。
CORREL 関数は,2つの配列データの相関係数を返す関数です。

CORREL 関数
配列 1 および配列 2 のセル範囲の配列データの相関係数を返します。相関係数は,2 つの特性の関係を判断するときに使用します。たとえば,各地域の平均気温とエアコンの普及率の相関関数を調べることができます。

書式
CORREL(配列 1, 配列 2)

CORREL 関数の書式には,次の引数があります。

  • 配列 1 必ず指定します。データが入力されたセル範囲を指定します。
  • 配列 2 必ず指定します。もう一方のデータが入力されたセルの範囲を指定します。

Excel Online ヘルプ「CORREL 関数」(2018.11.14参照)

次の例で,国語科の得点と数学科の得点の相関係数を計算します。

(1)セルに直接数式を入力する方法

① 相関係数を表示するセルを選択する

まず,相関係数を表示したいセルを選択します。ここでは,C13とします。

② CORREL 関数を入力する

数式を入力するときは,半角文字を使います。

セルC13に,「=CORREL(」とキーボードから入力します。
「=」は数式を入力することを宣言する記号です。
「(」を忘れず加えます。

③ 「配列1」を選択する

国語科のデータ範囲である「配列1」として,セルB2からセルB11までを,ドラッグして選択します。

数式は,「=CORREL(B2:B11」と表示されます。

続けて,「,」を入力します。「,」は「配列1」と「配列2」を区切る記号です。「配列1」の選択を終えた意味になります。

数式は,「=CORREL(B2:B11,」と表示されます。

④ 「配列2」を選択する

数学科のデータ範囲である「配列2」として,セルC2からセルC11を,ドラッグして選択します。

数式は,「=CORREL(B2:B11,C2:C11」と表示されます。

続けて,「)」を入力します。「)」は CORREL 関数の引数の入力終了時に入力します。※CORREL(配列 1, 配列 2)

数式は,「=CORREL(B2:B11,C2:C11)」と表示されます。

数式の入力が完了して,Enterキーを押すと,相関係数が表示されます。

(2)ウィザードを使って関数を検索して入力する方法

① 相関係数を表示するセルを選択する

相関係数を表示したいセルC13を選択します。

② 関数ウィザード(ダイアログボックス)を表示する

メニューの「数式」から「関数の挿入」を選択してクリックします。

または,数式バーの「fx」ボタンをクリックします。

③ 関数の検索

「関数の検索」に「相関係数」と入力して,「検索開始」をクリックします。

または,「関数の分類」から「統計」を選択します。
すると,統計のカテゴリーに属する関数が,一覧表示されます。
関数はアルファベット順に並んでいます。下の方にスクロールすれば,CORREL 関数が表示されます。

「CORREL」を選択して「OK」をクリックします。

【参考】使用したい関数が分からないときや関数を失念したときなどに,関数ウィザード(ダイアログボックス)は役立ちます。
例えば,キーワードとして「平均」と入力し「検索開始」をクリックすると,

AVERAGEIF,
AVERAGEIFS,
Z.TEST,
ZTEST,
AVERAGE

など,平均に関わる関数の候補が一覧表示されます。

④ 2つの変数のデータ範囲を選択する

構文CORREL(配列 1, 配列 2)の関数の引数として

  1. 「配列1」には,B2:B11
  2. 「配列2」には,C2:C11

を指定して,相関係数を求めたい2つの変数の範囲を選択します。

範囲を選択できたら「OK」をクリックします。

以上で,セルC13に相関係数が表示されます。

まとめ
  • 2つの量的変数の相関を調べる際,相関図を作成すると視覚的・直感的に相関関係の特徴を捉えられる。
  • しかし,相関の程度を表す言葉は数学的に定義されていないため,相関図だけでは説明は主観的になりやすい。数量化された指標が必要である。
  • 相関係数は,2つの量的変数の直線的な相関関係の方向と強さを数値で表すことができる。
  • 相関係数は,次の式で表され,「XとYの共分散」を「XとYの標準偏差の積」で除して求められる。
  • 相関係数は,Microsoft Excel で CORREL 関数を使うと簡単に求められる。






maru320i:
Related Post