- 相関図(散布図)の散らばり具合は,どう捉えるとよいのでしょうか。また,直線的な相関関係を言葉,数,図形でどう表現できるのでしょうか。
- ◯ 相関図の点の散らばり具合,すなわち相関関係は,言葉で次のように表現する
ア 一方の変量の値が大きいほど他方も大きい直線的な傾向があれば,変量XとYとの間には正の相関があるといい,
イ 一方の変量の値が大きいほど他方は小さい直線的な傾向があれば,変量XとYとの間には負の相関があるという
ウ プロットした点の集合が,全体に広がり傾向がみられない場合は,無相関という
◯ 相関関係の強さを数量的に表すには,相関係数を使う
◯ 直線的な相関関係の特徴や傾向を単純な図形でより明確に表すには,回帰直線を使う
◯ 相関図の2つの変数は独立し,因果関係とは言えない
◯ 異常値は正しい値に修正し,外れ値は含めるかどうか検討する
1 相関図とは(概要)
相関図とは,量の性質をもつ2つの変数について,互いに垂直に交わる直線をX軸Y軸とする平面上に,値の組を座標とする点をうって,点の散らばり具合で二つの変数の相関関係を表す図です。散布図とも言います。
例えば,国語科得点率と算数科得点率との相関関係を調べたいときに作成した下図のようなものです。
相関図を作成すると,相関関係の特徴が,視覚的に捉えやすくなります。
上の相関図を見ると,国語科得点率と算数科得点率とに相関がある,有相関であることが分かります。その相関の強さを表す相関係数は,0.85です。
このことから2つの量的変数には,強い正の相関があると言えます。なお,相関係数は計算式から求めます。
実際の統計での活用例として,下の例があります。
国土交通省総合政策局「海外旅行者満足度・意識調査報告書(平成20年7月)デスティネーション別 価格満足度散布図」[ONLINE]http://www.mlit.go.jp/common/000019459.pdf(2018.11.2参照)
各旅行先に対する価格満足度評価結果を,旅行構成要素別に相関図(散布図)で示すと上図のようです。
この相関図によると,各旅行先間において,「ホテルの価格満足度」と「レストランの価格満足度」とに緩やかな相関性が見られます。
また,「現地交通機関」と「ショッピング」の間も同様です。
相関図の意味と作り方については,別稿にて紹介しています。
ここでは,作成した相関図から,どのように相関関係の特徴を捉えるかについて述べます。
2 様々な相関関係を表す相関図
相関図は,2つの量的変数がどんな相関関係にあるかを視覚的に捉えるために作成します。
相関関係は,点の散らばり具合で捉えられます。その散らばり具合が,ある傾向をもっていたり,偏っていたりすると,2つの変数になんらかの関係があると考えられます。
1点1点を見るというより,点の集まりとしてどのように広がっているかを捉えるようにします。
相関図にプロットされた点の散らばり具合は,いろいろあります。
ここでは,その中でも,無相関,直線的な相関関係として正の相関,負の相関について述べます。
(1)正の相関
① 正の相関の強さ
「『正』の相関」は,プロットした点の集合の概形が,右上がりの図形になる場合です。
一方の変量が増加すれば,他方の変量も増加する傾向があれば,変量Xと変量Yとの間には,正の相関があるといいます。
例えば,下の相関図のような散らばり具合の場合です。
強い正の相関がある場合は,下の相関図のように右上がりの直線に近づきます。
最も強い場合は,特定の直線の上に点が並びます。このとき,点の集合は,傾きが正の数の一次関数の直線上にあります。
② 正の相関の実際
下の図は,正の相関の実際例です。点の集合の概形が右上がりの図形になっています。
この相関図では,「3日前の睡眠の質」と「最大酸素摂取量」の2つの量的変数の関係を考察しています。
「3日前の睡眠の質」は4段階評価(4点満点・筆者推測)なので,散らばり具合がやや偏って見えますが,回帰直線(後述)が右上がりとなる正の相関を表す相関図の例です。
2つの量的変数の関係を見ると,「3日前の睡眠の質」の点数が良いほど「最大酸素摂取量」が多くなる傾向があります。
睡眠の質が良くなればなるほど,摂取できる酸素の量が多くなっていく傾向にある,と言えます。
息苦しさを減らしたい?まずは,3日前にグッスリ眠ろう。
「3日前の睡眠の質」と「最大酸素摂取量」には相関が見られる。最大酸素摂取量が多ければ,息苦しさは軽減する。
休息とパフォーマンス向上の関係性を探るために,J1清水エスパルス [ユース/ジュニアユース]とアマチュア・ランナーの選手の協力のもと,3ヶ月にわたりデータ計測を実施(2018.12.16-2019.3.3)。
注釈:
・スポーツテスト(3回実施)の結果データ,デイリーの体調データ,栄養データ,睡眠データの値を基に分析
・アマチュア・ランナーとJ1清水エスパルス[ユース/ジュニアユース]の2グループについて,それぞれ分析を実施
・休息項目とパフォーマンス項目の相関分析を実施
・相関係数の絶対値が0.2以上のものを相関がある組み合わせとして採用
・さらに統計検定により,P値が0.05未満のものを有意な相関の組み合わせとして採用
江崎グリコ株式会社「休むことで, パフォーマンスは変わる。」[ONLINE]https://powerproduction.glico.jp/resthard/(cf.2020.6.1)
【注意】「『3日前の睡眠の質』と『最大酸素摂取量』には相関が見られる」とは,「3日前の睡眠の質」がよければ,必ず「最大酸素摂取量」が高まると言う,因果関係を説明するものではありません。2つの量的変数はそれぞれ独立しています。
(2)負の相関
① 負の相関の強さ
「『負』の相関」は,プロットした点の集合の概形が,右下がりの図形になる場合です。
一方の変量が増加すれば,他方の変量は減少する傾向があれば,変量Xと変量Yとの間には,負の相関があるといいます。
例えば,下のような散らばり具合の場合です。
強い負の相関がある場合は,下の相関図のように右下がりの直線に近づきます。
最も強い場合は,特定の直線の上に点が並びます。このとき,点の集合は,傾きが負の数の一次関数の直線上にあります。
② 負の相関の実際
下の図は,負の相関の実際例です。点の集合の概形が右下がりの図形になっています。
この相関図では,「平均睡眠効率」と「平均心拍数」の2つの量的変数の関係を考察しています。
「3日前の睡眠の質」の4段階評価とは違い100段階評価(100点満点・筆者推測)なので,散らばり具合が自然に見えます。これは,回帰直線が右下がりとなる負の相関を表す相関図の例です。
2つの量的変数の関係を見ると,「平均睡眠効率」の点数が良いほど「平均心拍数」が少なくなる傾向があります。
睡眠の効率が良くなればなるほど,走ったときの心拍数は安定していく傾向にある,と言えます。
息を上げずに走りたい?前日にグッスリ眠ろう。
「平均睡眠効率」と「平均心拍数」には負の相関が見られる。心拍数が安定すると,息が上がりにくくなる。
江崎グリコ株式会社「休むことで, パフォーマンスは変わる。」[ONLINE]https://powerproduction.glico.jp/resthard/(cf.2020.6.1)
【注意】「『平均睡眠効率』と『平均心拍数』には相関が見られる」とは,「平均睡眠効率」がよければ,必ず「平均心拍数」が安定すると言う,因果関係を説明するものではありません。2つの量的変数はそれぞれ独立しています。
(3)無相関
「無相関」は,プロットした点の集合が全体に広がり,傾向が見えない場合です。
このような場合は,変量Xと変量Yとの間に,相関がない(無相関)と言います。
変量Xと変量Yとの間に,相関がある場合は有相関といいます。正の相関と負の相関は有相関の1つです。
3 相関関係の特徴を表す数と図形
(1)相関関係の強さを表す数値
相関関係の強さを数量的に表すものに,相関係数があります。
相関係数 r の取り得る範囲は,-1 ≦ r ≦ 1 です。r の絶対値が1に近いほど相関が強いと言われます。
例えば,相関係数が 0.98 のとき,強い正の相関がある。-0.98 のとき,強い負の相関があると言います。
実際の統計処理場面で,いくつかの変量の中で相関関係を調べるとき,0.98のような強い相関関係を見い出せる機会はそう多くありません。
強い相関関係は往往にして調べずとも自明であることが多く,また,研究対象となる変量の相関関係は,多くが不明かもしくは不確かだからです。そこで,相関関係の仮説をもち,相関係数等を用いてデータを調べます。
ですから,相関がみられても,多くが「やや相関がある」「ゆるい相関がある」といった考察が多くなります。
このような相関係数の求め方等の詳しい内容は,別稿で述べます。
(2)相関関係の特徴を表し,値の予測ができる図形と式
① 回帰直線の定義
相関図を見れば,相関関係は「全体として直線的に右上がり」など,点の集合の概形から特徴が捉えられますが,その捉えは曖昧なものです。
相関関係をさらに明確に表現したい場合に有効なものはないでしょうか。
そのときに有効なのが,回帰直線(曲線)です。
回帰直線は,2つの変量の直線的な相関関係の特徴を視覚的に表す近似直線です。
回帰直線とは,下記の赤線のように,相関図において点の配列にできるだけ当てはまるようにひいた直線のことです。
【回帰直線】 相関図において,点の配列にできるだけよくあてはまるようにひいた直線(または曲線)のことを回帰直線(または回帰曲線)という。あてはめる方法としては最小2乗法が用いられる。 すなわち,( x1 , y1 ),( x2 , y2 ),…,( xn , yn )なる値を得たとき, φ = Σ{ yi – ( axi + b )}2 を最小ならしめるように定めた a,b を係数にもつ直線 y = ax + b をYのXへの(またはYのXに対する)回帰直線といい,a をYのXへの回帰係数という。 φ を最小にする a,b の値は,…中略… a = r ( sy/sx ) , b = -r ( sy/sx )(x-) + (y-) ※(x-),(y-)はそれぞれX,Yの平均値 すなわち,YのXへの回帰直線は, y – (y-) = r ( sy/sx )(x – (x-)) で与えられる。ここに,sx,syはそれぞれX,Yの標準偏差,rは相関係数である。 大阪書籍「新数学事典」1979,p638L |
② 回帰直線の式やグラフから値の予測
(1)式を用いた推測
回帰直線は,一次関数の式で表され,2つの変量の相関関係の特徴を表します。また,式を使えば,x の値から y の値を予測できます。
例えば,国語科と算数科の得点について「強い正の相関」相関係数 r=0.96
回帰直線 y=0.8162x+9.1285
とします。この式のxの値に40を代入すると,
0.8162 × 40 + 9.1285 = 41.7765
となり,x=40 のときの典型のy の値を予測できます。国語科の点数が40点の場合,算数科は約42点です。(この値は予測値であり実際の値とは異なる)
この場合,回帰直線などから,国語科の力が高ければ高いほど,算数科の力が高いと推測されます。
「負の相関」相関係数 r=-0.82 回帰直線 y=-0.6477x+82.259 では,xの値に40を代入すると,
-0.6477 × 40 + 82.259 = 56.351
となり,典型の値は,国語科の点数が40点の場合,算数科は約56点です。
この場合,回帰直線などから,国語科の力が高ければ高いほど,算数科の力は低いと推測されます。
なお,傾きは2つの変量の相関関係の特徴を表しますが,相関の有無や強さを検討しているとき,傾きの値の大小は比較してもあまり意味をもちません。
(2)グラフを用いた推測
先の「平均睡眠効率」と「平均心拍数」の相関図では,回帰直線が描かれています。
江崎グリコ株式会社「休むことで, パフォーマンスは変わる。」[ONLINE]https://powerproduction.glico.jp/resthard/(cf.2020.6.1)
回帰直線の式が公表されていれば,「平均睡眠効率(点)」を代入すると「平均心拍数(回数)」が推測できます。ここでは式が不明です。そこで,グラフそのものから読み取ってみます。
例えば,「平均睡眠効率」が90点だとします。
横軸の90のメモリから縦軸をたどって回帰直線と交わる点を見つけます。その点の縦軸のメモリを読むと,およそ104と読めます。
すなわち,平均心拍数は104回程度と推測されます。
とは言っても,この相関図のデータの散らばり具合は,かなり幅がありそうです。標準偏差は10程度はありそうです。そうすると,平均睡眠効率が90点のとき,平均心拍数は94回から114回程度だと推測できます。
被験者のデータにもよりますが,平均心拍数が多い方の114回程度でもかなり安定した心拍数です。筆者の体力では軽い運動でも120回は容易に超えます。
睡眠の質が良いと良い結果が得られそうです。
4 相関図活用上の留意点
(1)独立した相関図の2変数
相関図の2つの変数は独立しています。一方が原因で他方が結果という因果関係とは言えません。相関関係があると言えるだけです。
一般に,因果関係があれば相関関係があります。相関関係があっても因果関係があるとは限りません。
そのため,結果の説明の際には,相関図の結果分析の説明と要因の推測の説明を,読み手が分かるように区別して表記します。
例えば,冒頭に述べた「海外旅行者満足度・意識調査」では,交通機関とショッピングとに緩やかな相関がありました。これを例とすると,
「各旅行先間において,交通機関の価格満足度とショッピングの価格満足度とに緩やかな相関が見られた。」※報告書の表現を変更
「交通機関の価格満足度が,ショッピングの価格満足度に影響を与えていると推測できる。」※全く影響しない可能性も考慮
と説明できます。ここから,仮説「交通機関の利便性を向上させれば,ショッピングの質の向上が図れる」を設定するなど,要因分析や課題発見などにつなげられます。
実際には,報告書は交通機関とショッピングの因果関係について言及していません。
この交通機関とショッピングの相関の例は,訪問先の政策や経済力,国民性などが背景,すなわち,それらが潜在変数,第3の変数の可能性があります。
そのように考えた場合,政策や経済力等が交通機関とショッピングに象徴的に現れ(相関が強く),交通機関とショッピングは疑似相関の度合いが高いと考えられます。
疑似相関かどうかを判断する1つの目安として,政策・経済力・国民性を表す量的変数を用いて層別化した相関をみる方法があります。
(2)資料数に応じた相関図の活用
相関図や相関係数,回帰直線は正しいものです。しかしながら,母集団のデータ数が少ない場合は,1つ1つを具体的に分析することを優先した方がよい場合があります。その方が,具体的な問題や解決策を見出せることがあります。
相関関係を調べる際には,相関関係を示すことが意味あるデータ数か検討する必要があります。
例えば,児童5人の学級の国語科と算数科の学力調査結果を相関図に表そうと考える方は少ないでしょう。それより,一人一人の誤答の原因を探り指導方針を見極めたり,全体指導の在り方を指導内容や指導方法から修正したりする方が重要でしょう。
また,100人を超えるような規模のアンケート調査を実施する場合があります。この時,調査項目それぞれの相関関係を調べ,調査項目の中から有相関のものを見出すことは有効でしょう。
(3)極端に離れた異常値と外れ値の処理
① 異常値は修正
相関図の点の中には,「異常値」がある場合があります。
測定ミスや記録ミス等によるものです。
異常値は,元データを確認し正しい値に修正します。
右の相関図の赤丸で示した値は極端に外れています。
その値を含めなければ相関係数は 0.82,値を含めれば相関係数は 0.37 となり,その値の有無は相関係数に大きく影響します。そのため,何かのミスであれば修正が必要です。
また,上の相関図は,相関図と相関係数を併用する重要性を説明しています。
相関図では,赤丸の値が極端に離れていることが一目で分かります。しかしながら,相関係数では異常値の存在をとらえることはできません。
このように2つの量の関係を要約する際には,相関図と相関係数を併せて用いるようにします。
② 外れ値は要因等を検討
また,極端に離れた値は,「外れ値」がある場合があります。
統計上,他の値から大きく外れた値ですが,何か特殊な状況で生まれた可能性があります。そこに問題発見や問題解決の手がかりがあることがあります。
外れ値が生まれた原因や背景を探り,外れ値を含めるかどうか検討する必要があります。
例えば,平均値を出す場合,外れ値を含めると平均値が大きく変化することがあります。
{51,52,47,3} は正しく測定された値とします。それらの相加平均は,38.25 です。3 を除外すると,相加平均は,50 です。
38.25 と 50 では,代表値としての大きさに,かなりの違いがあります。
代表値として不適切なときは,外れ値の値を除外することがあります。
仮に,この「3」はミスの発生回数だとします。
極端にミスの発生が少なくなっています。なぜ少ないのか要因を探ることで,問題解決につながる可能性があります。
このように,外れ値に限らず,統計処理する1つ1つのデータの背景には,人の姿など具体の姿があることを心に留めておくことが大切です。
なお,外れ値の目安としては,四分位範囲の1.5倍以上離れた値や,標準偏差σを用いて,平均値より±2σ(事象によっては±3σ)以上離れた値とします。
まとめ
相関図(散布図)は,2つの量的変数がどんな相関関係にあるかを視覚的に捉えるために作成します。
相関関係は,相関図の点の散らばり具合で捉えられます。
◯ 相関図の点の散らばり具合,すなわち相関関係は,言葉で次のように表現する
・ 一方の変量が大きいほど他方も大きい直線的な傾向があれば,変量XとYとの間には正の相関があるという
・ 一方の変量が大きいほど他方は小さい直線的な傾向があれば,変量XとYとの間には負の相関があるという
・ プロットした点の集合が,全体に広がり傾向がみられない場合は,無相関という
◯ 相関関係の強さを数量的に表すには,相関係数を使う
◯ 直線的な相関関係の特徴や傾向を単純な図形でより明確に表すには,回帰直線を使う
◯ 相関図の2つの変数は独立し因果関係とは言えない
◯ 異常値は正しい値に修正し,外れ値は含めるかどうか検討する