AIの最新情報・実演を動画でチェック

*当ブログではアフィリエイト広告を利用しています。

カイ二乗検定とは?カテゴリ同士の関係の調べ方をやさしく図解

カイ二乗検定とは?カテゴリ同士の関係の調べ方をやさしく図解
ルミィ

前回のt検定は「数値の平均」を比べる検定でした。今回のカイ二乗検定は、うって変わって「カテゴリ(種類)」同士の関係を調べる検定です。

「性別によって、好きな商品は違う?」「住んでいる地域と、契約プランに関係はある?」——こうした質的データ(カテゴリ)の関連を調べたいときに登場します。クロス集計表を使う、その仕組みを図でやさしく見ていきましょう。

この連載は、仮説検定・p値の“具体的な手法編”です。「帰無仮説・p値・有意水準」の考え方がまだの方は、先にそちらを読むとスッと入ってきます。

🧪 連載「統計的検定・推定の使い分け」(全4回)

「その差は偶然か、意味があるか」——代表的な検定(t検定・カイ二乗・分散分析)と、推定の区間(信頼区間)を、使い分けの視点で整理する連載です。

  1. t検定|2グループの平均の差
  2. カイ二乗検定(この記事)|カテゴリ同士の関係
  3. 分散分析(ANOVA)|3グループ以上の比較
  4. 信頼区間|推定値を“幅”で表す
ルミィ
ルミィ

数値じゃなくて『種類』の関係を調べるのがカイ二乗。『もし関係なければこうなるはず』とのズレを見るんだ。

カイ二乗検定の図解。観測(実際のデータ)の2×2クロス集計表と、関係がなければこうなるはずの期待度数の表を比べ、ズレが大きいほど関係ありと判断する流れ。
図:「関係がなければこうなるはず(期待)」と「実際(観測)」のズレが大きいほど、カテゴリ同士に関係ありと判断します。

カイ二乗検定とは?

カイ二乗検定(χ²検定)は、質的データ(カテゴリ)を対象にした検定です。いちばんよく使われるのが独立性の検定——「2つのカテゴリ変数に関係があるか(独立か)」を調べるものです。

たとえば「性別(男・女)」と「好きな商品(A・B)」。この2つに関係があるのか、それとも無関係(独立)なのか。これを、クロス集計表の数字から判断します。

仕組み|観測と“期待”のズレを見る

カイ二乗検定の発想は、とてもうまくできています。「もし2つのカテゴリに関係がなかったら、表の数字はこうなるはず」という“期待”を計算し、それと“実際(観測)”のズレを測るのです。

図を見てください。左が実際のデータ(観測度数)、右が「関係がなければこうなるはず」という理論値(期待度数)。この2つのズレが大きいほど、「偶然ではなく、関係がある」と考えます。そのズレの大きさを1つの数字にまとめたのが、カイ二乗値です。

カイ二乗値は、Σ(観測 − 期待)² ÷ 期待で計算されます。ズレ(観測−期待)を二乗して、期待度数で割って合計する——式は少し複雑ですが、やっていることは「観測と期待の食い違いの合計」です。

カイ二乗検定=「関係がなければこうなるはず(期待)」と「実際(観測)」のズレを測る。ズレが大きいほど“関係あり”と判断する。

具体例|クロス集計表で考える

図の例で読んでみましょう。男性100人・女性50人に、商品AとBどちらが好きかを聞いた、とします。

  • 観測(実際)——男性はAが40人・Bが10人、女性はAが20人・Bが30人
  • 期待(関係なければ)——全体の好みの割合から計算した“もし性別と無関係なら”の人数

実際には「男性はA寄り、女性はB寄り」という偏りがあり、期待値とのズレが大きい。だから「性別と好みには関係がありそう」と判断できます。逆に、観測が期待とほとんど同じなら、ズレ(カイ二乗値)は小さく、p値が大きくなって「関係があるとは言えない」となります。

適合度の検定にも使える

カイ二乗検定には、もう一つの使い方「適合度の検定」もあります。これは、観測されたデータが、ある理論的な割合に合っているかを調べるものです。

たとえば「このサイコロは“イカサマ”ではないか?(各目が1/6ずつ出るはずか)」を確かめる、といった使い方です。仕組みは同じで、「理論どおりなら期待される回数」と「実際に出た回数」のズレを、カイ二乗値で測ります。

使うときの注意点

便利なカイ二乗検定にも、知っておきたい注意があります。

  • 期待度数が小さいと不正確——どこかのマスの期待度数が5未満だと、結果が当てにならないことがある(別の方法=フィッシャーの正確確率検定を使う)
  • “関係の強さ”は分からない——「関係があるか」は分かるが、それがどれくらい強いかは別の指標で見る
  • 因果は分からない——相関と同じで、関係があっても「どちらが原因か」までは言えない

最後の点は、相関≠因果とまったく同じ注意です。カテゴリでも数値でも、「関係がある」と「原因と結果」は別もの。ここはいつも区別しましょう。

期待度数の出し方|“関係なければ”を計算する

「期待度数って、どうやって出すの?」と思いますよね。考え方はシンプルです。「全体の割合が、各グループにもそのまま当てはまる」と仮定して計算します。

たとえば、全体で商品Aが好きな人が60%なら、「もし性別と無関係なら、男性でも女性でもAが好きな人は60%のはず」。男性100人なら期待は60人、女性50人なら期待は30人…という具合です。この“もし無関係なら”の数字と、実際の数字のズレを見るわけです。実際の計算はExcelやソフトがやってくれますが、「全体の割合を当てはめたのが期待度数」という発想だけ知っておけば十分です。

自由度って何?

カイ二乗検定の解説で必ず出てくるのが自由度という言葉です。難しく考えず、「自由に決められるマスの数」とイメージしてください。

クロス集計表では、行と列の合計が決まっていると、いくつかのマスが決まれば残りは自動的に決まります。その“自由に動けるマスの数”が自由度です(2×2の表なら自由度は1)。カイ二乗値が「どれくらい大きければ有意か」の基準は、この自由度によって変わります。自由度は、表の大きさに応じて基準を調整するためのもの、と押さえておけばOKです。

関係の“強さ”も見る|クラメールのV

カイ二乗検定が教えてくれるのは、あくまで「関係があるか・ないか」。その関係がどれくらい強いかまでは分かりません。

関係の強さを知りたいときは、クラメールのVという指標を使います。これは0〜1の値で、1に近いほど強い関係を表します。t検定の効果量と同じで、「有意かどうか(検定)」と「どれくらい強い関係か(クラメールのV)」を分けて見るのが、ていねいな分析です。データが大量だと、ごく弱い関係でも有意になりがちなので、この区別が効いてきます。

何に使われている?

カイ二乗検定は、アンケートや調査の分析で大活躍します。

  • マーケティング——「性別・年代と、好む商品やブランドに関係はあるか」を調べる
  • アンケート分析——「居住地域と、サービスの満足度に関連はあるか」
  • 医療・品質——「ある条件と、症状の有無・不良の発生に関係はあるか」
  • Webサイト——「流入元と、申し込みの有無に関係はあるか」

クロス集計表で表せる「カテゴリ × カテゴリ」の関係なら、どんな分野でも使えるのがカイ二乗検定の強みです。アンケート結果を“なんとなく”で語らず、根拠をもって「関係がありそう」と言えるようになります。

Excelでカイ二乗検定

カイ二乗検定も、ExcelのCHISQ.TEST関数でできます。手順はこうです。

  1. ①観測度数の表を作る——実際のクロス集計表(ピボットテーブルが便利)
  2. ②期待度数の表を作る——各マス=「その行の合計 × その列の合計 ÷ 全体の合計」で計算
  3. ③関数を書く——=CHISQ.TEST(観測の範囲, 期待の範囲) でp値が返る

返ってきたp値が0.05未満なら、「カテゴリ同士に関係あり」と判断します。期待度数の計算が少し手間ですが、一度作ってしまえば使い回せます。アンケートをとったら、まずピボットでクロス集計し、この関数で関連を確かめる——という流れが定番です。手元にアンケート結果があるなら、ぜひ一度この手順を試してみてください。『なんとなく、男性はこちらが好きそう』という印象が、『統計的に、関係があると言える/言えない』という根拠のある言葉に変わります。それが、データを“語れる”ようになる、ということです。

まとめ

カイ二乗検定は、カテゴリ(質的データ)同士の関係を調べる検定です。「もし関係がなければこうなるはず」という期待度数と、実際の観測度数のズレ(カイ二乗値)を測り、ズレが大きいほど「関係あり」と判断します。

性別と好み、地域とプランなど、クロス集計表で表せる関係の検証が得意。期待度数が小さいときの注意や、「関係≠因果」という点を押さえておけば、心強い道具になります。数値の平均はt検定、カテゴリの関係はカイ二乗、と覚えておきましょう。次回は、3つ以上のグループをまとめて比べる分散分析に進みます。

アンケートやクロス集計の結果を前に、「この偏りは、意味があるのか・たまたまなのか」と迷った経験はないでしょうか。カイ二乗検定は、まさにその迷いに答えをくれる道具です。数値の平均はt検定、カテゴリの関係はカイ二乗——この“データの種類による使い分け”を押さえておけば、手元のデータに合った検定を、自分で選べるようになります。

そして、ここでも忘れたくないのが「関係がある」と「原因と結果」は別、という視点です。カイ二乗検定が教えてくれるのは“関連の有無”まで。その先の「なぜ関連するのか」は、データの背景を考え、追加の調査で確かめていく——検定はゴールではなく、良い問いを立てるための出発点なのです。関係が見つかったら、そこから『なぜだろう?』を掘り下げていく。カイ二乗検定は、その探究の旅の最初の一歩を、しっかり踏み出させてくれる道具です。

カイ二乗検定=カテゴリ同士の関係(独立性)を調べる検定。

「関係がなければこうなるはず(期待)」と「実際(観測)」のズレを測る。

期待度数5未満は要注意。関係があっても因果とは限らない。

よくある質問(FAQ)

カイ二乗検定とは何ですか?

A. カテゴリ(質的データ)同士に関係があるかを調べる統計的検定です。よく使われる独立性の検定では、性別と好きな商品のように2つのカテゴリ変数が関係あるか(独立か)を、クロス集計表の数字から判断します。

カイ二乗検定はどういう仕組みですか?

A. 「もし2つのカテゴリに関係がなければ、表の数字はこうなるはず」という期待度数を計算し、実際の観測度数とのズレを測ります。ズレが大きいほどカイ二乗値が大きくなり、偶然ではなく関係があると判断します。

t検定とカイ二乗検定はどう使い分けますか?

A. t検定は身長や点数などの数値(量的データ)の平均を比べるときに使います。カイ二乗検定は性別や好みなどのカテゴリ(質的データ)の関係を調べるときに使います。扱うデータの種類で選びます。

独立性の検定と適合度の検定の違いは?

A. 独立性の検定は、2つのカテゴリ変数に関係があるかを調べます。適合度の検定は、観測データがある理論的な割合(サイコロの各目が1/6ずつなど)に合っているかを調べます。どちらも観測と期待のズレを測る点は同じです。

カイ二乗検定の注意点は何ですか?

A. どこかのマスの期待度数が5未満だと結果が不正確になることがあり、その場合はフィッシャーの正確確率検定を使います。また、関係があるかは分かっても関係の強さや因果関係までは分からない点にも注意が必要です。

カイ二乗検定で関係があれば因果関係があると言えますか?

A. 言えません。相関と同じで、関係(関連)があっても、どちらが原因でどちらが結果かまでは分かりません。第3の要因が両方に影響している可能性もあるため、関係と因果は区別して考えます。

カイ二乗値が大きいと何が分かりますか?

A. 観測されたデータが「関係がなければこうなるはず」という期待から大きくズレている、ということです。ズレが大きいほどp値は小さくなり、カテゴリ同士に関係があると判断しやすくなります。

あわせて読みたい

参考・一次ソース

  • IBM「What is a chi-square test?」(ibm.com
  • 総務省統計局「なるほど統計学園 高等部」(stat.go.jp

※本記事は2026年6月時点の一般的な統計の考え方を初心者向けに整理したものです。検定の前提条件や厳密な手順は専門書もご確認ください。

ルミィ
ルミィ
AIナビゲーター
ChatGPT・Gemini・Claudeなどの会話AI、画像生成AI、動画生成AI、資料作成AI、AI検索ツールを初心者向けに解説するAIナビゲーター。実際に使ってみた感想や、仕事・学習・発信に役立つAI活用法をわかりやすく紹介しています。
記事URLをコピーしました