ニュースやSNS、ビジネス資料などを見ていると、「Aが増えるとBも増える」「Aが多い人ほどBも高い」といったデータを目にすることがあります。グラフや数字で示されると、つい「AがBの原因なのだろう」と考えてしまいがちです。
しかし、そこで注意したいのが擬似相関です。
擬似相関とは、一見すると二つの事柄に強い関係があるように見えるものの、実際には一方がもう一方の原因ではない関係のことです。別の言い方をすると、「関係がありそうに見えるだけの相関」です。「疑似相関」と表記されることもありますが、この記事では擬似相関という表記で統一します。
たとえば、「アイスクリームの売上が増えると水難事故も増える」というデータがあったとします。この数字だけを見ると、まるでアイスクリームが水難事故を引き起こしているように見えるかもしれません。しかし実際には、アイスクリームそのものが原因ではありません。背景にあるのは、気温の上昇や夏という季節です。
このように、二つの事柄の背後にある第三の要因によって、まるでAとBが直接関係しているように見えてしまうことがあります。これが擬似相関の基本的な仕組みです。
擬似相関を理解するためには、まず相関関係と因果関係の違いを整理しておく必要があります。
| 用語 | 意味 |
|---|---|
| 相関関係 | 二つの事柄が一緒に増えたり減ったりする関係 |
| 因果関係 | 一方が原因となり、もう一方が結果として起きる関係 |
たとえば、気温が上がるとアイスクリームの売上が増えるという関係には、ある程度の因果関係が考えられます。暑くなると冷たいものを食べたくなるため、アイスクリームが売れやすくなるからです。
一方で、アイスクリームの売上が増えると水難事故が増えるという関係は、単純な因果関係ではありません。両方に影響を与えているのは、気温の上昇や夏のレジャーの増加です。
つまり、相関があるからといって、必ず原因と結果の関係があるとは限らないのです。
擬似相関では、二つの事柄AとBの背後に、第三の要因Cが隠れていることがよくあります。
基本的な構造は、次のように考えると分かりやすいです。
たとえば、気温が上がるとアイスクリームの売上が増えます。同時に、気温が上がると海や川、プールへ行く人が増え、水難事故の件数も増えやすくなります。
この場合、アイスクリームの売上と水難事故の間に直接の因果関係があるわけではありません。両方に影響しているのは、気温という第三の要因です。
このような構造を理解しておくと、ニュースやSNSで見かけるグラフを見たときにも、「本当にAがBの原因なのか」「別の要因が隠れていないか」と考えることができます。
| 項目 | 内容 |
|---|---|
| 事象A | アイスクリームの売上 |
| 事象B | 水難事故の件数 |
| 見かけ上の関係 | アイスクリームが売れる時期ほど、水難事故も増えやすい |
| 第三の要因 | 気温の上昇、夏の季節、レジャー人口の増加 |
擬似相関の代表的な例としてよく挙げられるのが、アイスクリームの売上と水難事故の関係です。
夏になると、アイスクリームの売上は増えます。同時に、海や川、プールへ出かける人も増えるため、水難事故の件数も増えやすくなります。この二つのデータを並べると、アイスクリームの売上と水難事故に強い相関があるように見えることがあります。
しかし、アイスクリームを食べることが水難事故の原因になっているわけではありません。アイスクリームの販売を規制しても、水難事故は減らないでしょう。
この場合に本当に注目すべきなのは、暑さ、水辺に行く人の増加、監視体制、安全意識などです。つまり、水難事故を減らすためには、アイスクリームではなく、水辺での安全対策を考える必要があります。
| 項目 | 内容 |
|---|---|
| 事象A | ビールなどのアルコール飲料の売上 |
| 事象B | 熱中症で搬送される人の数 |
| 見かけ上の関係 | ビールの売上が増える時期ほど、熱中症患者も増えやすい |
| 第三の要因 | 気温の上昇、猛暑、夏の屋外活動 |
ビールの売上と熱中症患者数にも、見かけ上の相関が生じることがあります。
暑くなると、冷たいビールを飲みたくなる人が増えます。そのため、夏場にはビールの売上が伸びやすくなります。一方で、気温が高くなると熱中症のリスクも高まり、救急搬送される人も増えます。
このデータだけを見ると、「ビールの売上が増えると熱中症も増える」と見えるかもしれません。しかし、主な背景にあるのは気温の上昇です。
もちろん、飲酒は脱水を招きやすく、暑い環境では体調悪化につながることがあります。その意味では、飲酒と熱中症リスクがまったく無関係とは言い切れません。ただし、統計上の大きな相関を説明する中心的な要因は、ビールそのものではなく、暑さや季節である場合が多いと考えられます。
このように、実際には複数の要因が絡み合っているケースでは、「一つの数字だけ」を見て原因を決めつけないことが大切です。
| 項目 | 内容 |
|---|---|
| 事象A | 年賀状を出す枚数 |
| 事象B | 年収 |
| 見かけ上の関係 | 年賀状を多く出す人ほど、年収が高い傾向に見える |
| 第三の要因 | 年齢、職業上の人間関係、社会的立場 |
年賀状を多く出す人ほど年収が高い、というデータがあったとします。この場合、「年賀状をたくさん出せば年収が上がる」と考えるのは早計です。
背景には、年齢や職業上の人間関係が関係している可能性があります。
たとえば、年齢が高い人ほど年賀状文化になじみがあり、親戚、仕事関係、昔の知人などへ年賀状を出す枚数が多い傾向があります。また、年齢が高い人ほど勤務年数が長く、役職に就いていることもあり、結果として年収が高い場合があります。
この場合、年賀状の枚数そのものが年収を上げているわけではありません。年齢、職業上のつながり、社会的立場などが、年賀状の枚数と年収の両方に影響していると考えられます。
もちろん、人間関係を大切にすることが仕事の機会につながることはあります。しかし、「年賀状の枚数が年収を決める」と単純化してしまうと、原因と結果を取り違えることになります。
| 項目 | 内容 |
|---|---|
| 事象A | 髪の長さ |
| 事象B | 幼児の言語能力の発達 |
| 見かけ上の関係 | 髪が長い子どもの方が、言葉の発達が早いように見える場合がある |
| 第三の要因 | 年齢、性別、家庭環境、保育環境など |
「髪が長い子どもの方が言語能力が高い」というようなデータがあった場合も、擬似相関の可能性を考える必要があります。
髪の長さそのものが、言葉の発達を促しているわけではありません。髪を伸ばせば語彙が増える、という関係は考えにくいからです。
このような相関が見えた場合、年齢、性別、家庭での会話量、保育環境、読み聞かせの頻度など、さまざまな要因が影響している可能性があります。たとえば、年齢が少し高い子どもの方が髪が長く、同時に言語能力も発達しているということも考えられます。
また、社会的な習慣として、性別によって髪型に差が出ることもあります。ただし、性別だけで能力を決めつけることはできません。実際には、家庭環境、個人差、成長のタイミングなど、多くの要素が関係しています。
この例から分かるのは、見た目の特徴と能力のようなデータを結びつけるときには、特に慎重な見方が必要だということです。
| 項目 | 内容 |
|---|---|
| 事象A | インフルエンザワクチンの接種率 |
| 事象B | 死亡率や重症化率 |
| 見かけ上の関係 | 接種率が高い人ほど死亡率が低いように見える場合がある |
| 第三の要因 | 健康意識、基礎疾患の有無、医療へのアクセス、生活習慣 |
医療や健康に関するデータでも、擬似相関には注意が必要です。
たとえば、インフルエンザワクチンを接種している人の方が、死亡率や重症化率が低いというデータがあったとします。このデータは、ワクチンの効果を考える上で重要な情報の一つになります。
ただし、観察データだけを見る場合には、ワクチンそのものの効果に加えて、別の要因も考える必要があります。
たとえば、日頃から健康意識が高い人は、ワクチン接種を受ける可能性が高く、同時に食事、睡眠、運動、定期検診などにも気を配っているかもしれません。また、医療機関に行きやすい環境にある人ほど、早期に治療を受けられる可能性もあります。
この場合、ワクチン接種と死亡率の間に関係が見えたとしても、その一部には健康意識や医療アクセスといった要因が混ざっている可能性があります。
ここで大切なのは、ワクチンの効果を否定する話ではないという点です。医療の効果を正しく評価するためには、年齢、基礎疾患、生活習慣、医療環境などの条件をできるだけそろえて比較する必要があります。
医療データは人の健康や命に関わるため、単純な相関だけで判断せず、慎重に読み解くことが重要です。
| 項目 | 内容 |
|---|---|
| 事象A | ある国における米の消費量 |
| 事象B | パソコンの出荷台数 |
| 見かけ上の関係 | 長期的に見ると、両方が増えているように見える場合がある |
| 第三の要因 | 人口増加、経済成長、時間の経過 |
時系列データでは、特に擬似相関が起きやすくなります。
たとえば、ある国で米の消費量が増え、同時にパソコンの出荷台数も増えていたとします。この二つをグラフにすると、きれいに右肩上がりになり、強い相関があるように見えるかもしれません。
しかし、米を食べる量が増えたからパソコンが売れた、という因果関係は考えにくいでしょう。
この場合、背景にあるのは人口増加や経済成長です。人口が増えれば、国全体の食料消費量は増えやすくなります。同時に、経済が成長すれば、パソコンや家電製品を購入できる人も増えます。
また、単に「時間の経過」とともに、さまざまなものが増えているだけということもあります。長い期間で見ると、人口、所得、都市化、教育水準、通信環境など、複数の要素が同時に変化します。そのため、無関係な二つのデータでも、並べると関係があるように見えてしまうことがあります。
時系列データを見るときは、「どちらも時間とともに増えているだけではないか」と疑ってみることが大切です。
| 項目 | 内容 |
|---|---|
| 事象A | スマートフォンの普及率 |
| 事象B | 平均寿命 |
| 見かけ上の関係 | スマートフォンが普及している国ほど、平均寿命が長いように見える場合がある |
| 第三の要因 | 経済水準、医療制度、教育水準、インフラ |
スマートフォンの普及率と平均寿命にも、見かけ上の相関が生じることがあります。
経済的に豊かな国では、スマートフォンが広く普及していることが多く、同時に医療制度や衛生環境も整っているため、平均寿命が長い傾向があります。
しかし、スマートフォンを持つこと自体が寿命を延ばしているわけではありません。もちろん、医療情報にアクセスしやすくなる、救急連絡がしやすくなる、健康管理アプリを使えるといった間接的な利点はあります。
それでも、平均寿命に大きく影響するのは、医療制度、栄養状態、教育、所得、治安、衛生環境などの複合的な要因です。
この例では、スマートフォンの普及率は、その国の経済発展や生活インフラの整備状況を反映している指標の一つにすぎない可能性があります。
| 項目 | 内容 |
|---|---|
| 事象A | コンビニの店舗数 |
| 事象B | 高齢者人口 |
| 見かけ上の関係 | コンビニが多い地域ほど、高齢者も多く見える場合がある |
| 第三の要因 | 人口密度、都市化、住宅地の規模、地域の商圏 |
地域別のデータを見ると、コンビニの店舗数と高齢者人口に相関が見えることがあります。
しかし、コンビニが増えたから高齢者が増えたわけでも、高齢者が増えたから必ずコンビニが増えたわけでもありません。
多くの場合、背景には地域の人口規模や人口密度があります。人が多く住んでいる地域では、若者も高齢者も多くなります。そして、人が多い場所には商業施設が成り立ちやすいため、コンビニも増えやすくなります。
つまり、コンビニ店舗数と高齢者人口の両方に影響しているのは、地域の人口規模や都市化の度合いです。
このような地域データでは、「人口が多い地域ほど、さまざまな数値が大きくなる」という基本的な性質に注意する必要があります。単純な件数だけではなく、人口あたりの割合や面積あたりの密度で比較することも大切です。
| 項目 | 内容 |
|---|---|
| 事象A | サイト訪問者の平均滞在時間 |
| 事象B | 商品の購入率や問い合わせ率 |
| 見かけ上の関係 | 滞在時間が長いほど、コンバージョン率が低いように見える場合がある |
| 第三の要因 | サイトの使いやすさ、情報設計、購入手続きの分かりにくさ |
ビジネスやウェブマーケティングの分野でも、擬似相関はよく起こります。
たとえば、あるECサイトで「滞在時間が長いユーザーほど購入率が低い」というデータが出たとします。この結果だけを見ると、「滞在時間を短くすれば購入率が上がる」と考えてしまうかもしれません。
しかし、これは非常に危険な判断です。
滞在時間が長い理由は、ユーザーが商品に強い関心を持っているからではなく、サイトが分かりにくく、目的の情報を探すのに時間がかかっているからかもしれません。送料、返品条件、サイズ、支払い方法、問い合わせ先などが見つかりにくいと、ユーザーはページ内を行ったり来たりします。
この場合、滞在時間が長いことが購入率を下げているのではありません。真の原因は、サイトの使いにくさや情報設計の不備です。
もし「滞在時間を短くすればよい」と考えて商品説明を削ったり、ページを簡素化しすぎたりすると、ユーザーの疑問が解消されず、かえって購入率が下がる可能性があります。
ウェブデータを見るときは、数字だけでなく、ユーザーがなぜその行動を取っているのかを考える必要があります。
| 項目 | 内容 |
|---|---|
| 事象A | 広告費 |
| 事象B | 売上 |
| 見かけ上の関係 | 広告費を増やすと売上も増えるように見える |
| 第三の要因 | 季節需要、キャンペーン時期、商品力、景気、ブランド認知 |
広告費と売上の関係も、単純に判断すると誤解しやすい分野です。
たとえば、広告費を多く使った月に売上が増えていたとします。これを見ると、「広告費を増やせば売上が増える」と考えたくなります。もちろん、広告が売上に貢献している場合もあります。
しかし、売上が増えた理由が広告だけとは限りません。
たとえば、年末商戦、夏休み、入学シーズン、ボーナス時期など、もともと需要が高まる時期に広告を増やしていた可能性があります。また、テレビやSNSで商品が話題になっていた、競合商品が品切れしていた、価格改定前の駆け込み需要があった、という場合もあります。
この場合、広告費と売上の両方に影響しているのは、季節要因や市場環境です。
広告の効果を正しく見るためには、広告を出した地域と出していない地域を比べる、過去の同じ時期と比較する、広告を見た人と見ていない人の行動を分けて分析するなど、より丁寧な検証が必要になります。
| 項目 | 内容 |
|---|---|
| 事象A | 勉強時間 |
| 事象B | テストの点数 |
| 見かけ上の関係 | 勉強時間が長い人ほど、必ずしも点数が高いとは限らない |
| 第三の要因 | 学習方法、理解度、基礎学力、集中力、睡眠時間 |
勉強時間と成績の関係も、単純に考えると誤解が生まれやすい例です。
一般的には、勉強時間が長いほど成績が上がりやすいと考えられます。これはある程度自然な考え方です。しかし、実際のデータでは、長時間勉強しているのに成績が伸びない人や、比較的短い時間でも高い点数を取る人がいます。
このとき、「勉強時間は意味がない」と考えるのは間違いです。重要なのは、勉強時間だけでなく、勉強の質も関係しているということです。
たとえば、同じ2時間でも、集中して問題演習をしている人と、スマートフォンを見ながら教科書を眺めている人では、学習効果が大きく異なります。また、基礎がすでに身についている人は短時間でも成果を出しやすく、苦手分野が多い人は長時間勉強してもすぐには点数に反映されないことがあります。
この場合、勉強時間と成績の関係を見るには、学習方法、理解度、集中力、睡眠、復習の仕方など、複数の要因を考える必要があります。
| 項目 | 内容 |
|---|---|
| 事象A | SNSのフォロワー数 |
| 事象B | 発信内容の信頼性 |
| 見かけ上の関係 | フォロワーが多い人ほど、正しい情報を発信しているように見える |
| 第三の要因 | 知名度、話題性、拡散力、炎上、娯楽性 |
現代では、SNSのフォロワー数を見て、その人の発信内容を信頼してしまうことがあります。
確かに、専門家や実績のある人が多くのフォロワーを持っていることはあります。しかし、フォロワー数が多いことと、発信内容が正確であることは同じではありません。
フォロワー数は、知名度、話題性、発信の面白さ、炎上、見た目の印象、投稿頻度など、さまざまな要因によって増えることがあります。必ずしも情報の正確性だけで増えるわけではありません。
特に健康、投資、政治、災害、国際情勢などの情報では、フォロワー数だけを根拠に信じるのは危険です。情報の出典、専門性、過去の発信内容、複数の信頼できる資料との一致を確認する必要があります。
この例は、数字が大きいからといって、それがそのまま信頼性の証明になるわけではないことを示しています。
擬似相関が危険なのは、間違った原因を信じてしまうことで、間違った対策を取ってしまう可能性があるからです。
たとえば、アイスクリームの売上と水難事故の関係を誤解して、アイスクリームの販売を減らしても、水難事故の根本的な対策にはなりません。本当に必要なのは、監視員の配置、ライフジャケットの着用、危険な場所への注意喚起、天候や水流の確認などです。
ビジネスでも同じです。ウェブサイトの滞在時間が長い人ほど購入率が低いというデータを見て、単純にページを短くしてしまうと、ユーザーに必要な情報まで削ってしまうかもしれません。本当に改善すべきなのは、ページの構成、購入手続き、表示速度、説明の分かりやすさかもしれません。
擬似相関を見抜けないと、次のような問題が起こります。
数字やグラフは、物事を考える上で非常に役立ちます。しかし、数字があるからといって、その解釈まで正しいとは限りません。大切なのは、数字の背後にある構造を考えることです。
擬似相関にだまされないためには、いくつかの視点を持つことが大切です。
因果関係があると言えるためには、原因とされるものが結果よりも先に起きている必要があります。
たとえば、「ある商品を買った人は健康になった」というデータがあったとしても、もともと健康意識が高い人がその商品を買っていただけかもしれません。この場合、商品が健康を生んだのか、健康意識が商品購入につながったのかを区別する必要があります。
相関が見つかったときには、「なぜAがBを引き起こすのか」を説明できるか考える必要があります。
アイスクリームの売上が増えると水難事故が増えるというデータがあっても、アイスクリームが水難事故を直接引き起こす仕組みは考えにくいです。このように、理屈として無理がある場合は、第三の要因を疑うべきです。
擬似相関では、背後に第三の要因が隠れていることがよくあります。
気温、年齢、所得、人口、季節、地域差、景気、教育水準、健康状態などは、さまざまなデータに影響を与えます。二つの数字だけを見るのではなく、「ほかに共通して影響しているものはないか」と考えることが重要です。
地域別のデータでは、単純な件数だけを見ると誤解が生まれやすくなります。
人口が多い地域では、病院の数、コンビニの数、交通事故の件数、犯罪の件数、学校の数など、さまざまな数字が大きくなりがちです。そのため、人口あたりの割合や、面積あたりの密度で見ることが必要です。
グラフは見やすい一方で、切り取り方によって印象が大きく変わります。
期間の取り方、縦軸の目盛り、比較対象の選び方によって、相関が強く見えることもあります。一つのグラフだけで判断せず、複数の資料や別の視点から確認することが大切です。
ビジネスの現場では、データを使った判断がますます重要になっています。売上、アクセス数、広告費、問い合わせ数、滞在時間、購入率、リピート率など、多くの数字が日々確認されています。
しかし、データを使う場面が増えるほど、擬似相関に注意する必要も高まります。
たとえば、「広告費を増やした月に売上が伸びた」という結果だけを見て、広告費をさらに増やす判断をしたとします。しかし、実際には季節需要や競合の品切れ、テレビでの紹介、価格改定前の駆け込み需要などが売上を押し上げていた可能性もあります。
また、「問い合わせ数が多い商品ほど満足度が低い」というデータがあったとしても、問い合わせ数が多い原因は、商品に問題があるからではなく、単に販売数が多いからかもしれません。
ビジネスデータでは、数字をそのまま受け取るのではなく、現場の実感や顧客の声と合わせて解釈することが重要です。
データは意思決定の材料になりますが、データだけで自動的に正しい答えが出るわけではありません。数字の背景を読み解く力が必要です。
SNSでは、短い文章とグラフを組み合わせた投稿が多く拡散されます。
「この食品を食べる人は病気が少ない」「この地域では外国人が増えた後に犯罪が増えた」「この政策の後に景気が悪化した」など、強い印象を与えるデータが投稿されることがあります。
しかし、そのような投稿の中には、擬似相関を利用しているものや、意図せず誤解を招いているものもあります。
たとえば、ある出来事の後に別の出来事が起きたとしても、前の出来事が後の出来事の原因とは限りません。時間的に近いだけで、実際には別の要因が関係していることもあります。
また、都合のよい期間だけを切り取ったグラフや、人口規模の違いを無視した比較も、誤解を生む原因になります。
SNS時代には、情報を速く受け取る力だけでなく、情報を一度立ち止まって考える力が必要です。数字やグラフを見たときほど、「本当にそう言えるのか」と確認する姿勢が大切になります。
擬似相関とは、二つの事柄に関係があるように見えても、実際には直接の因果関係がない状態を指します。
アイスクリームの売上と水難事故、ビールの売上と熱中症、年賀状の枚数と年収、ウェブサイトの滞在時間とコンバージョン率など、身近なところにも擬似相関は数多くあります。
擬似相関が起こる主な理由は、背後に第三の要因が隠れているからです。気温、年齢、人口、経済成長、健康意識、季節、地域差などが、二つのデータに同時に影響していることがあります。
大切なのは、相関関係を見つけたときに、すぐに因果関係だと決めつけないことです。
このような視点を持つことで、データをより正しく読み取ることができます。
データは便利で強力な道具です。しかし、使い方を間違えると、事実とは違う結論に導かれてしまうこともあります。擬似相関を理解することは、数字にだまされず、物事を冷静に判断するための大切な第一歩です。