2026.06.14 2026.07.11

仮説検定・p値とは？偶然か意味のある差かをやさしく図解

Q: 仮説検定とは何ですか？

観測されたデータの差や効果が、偶然では説明しにくいほど大きいかどうかを、確率で判断する方法です。ABテストや新薬の効果検証など、「効果があったと言ってよいか」を感覚でなく確率で線引きするときに使います。

Q: 帰無仮説とは何ですか？

「差はない（偶然だ）」という、つまらないほうの仮説です。仮説検定では、いったんこの帰無仮説が正しいと仮定し、そのもとで観測された差がどれくらい起こりにくいかを調べます。起こりにくければ、この仮定を捨てます。

Q: p値とは何ですか？

「もし差がない（帰無仮説が正しい）と仮定したとき、観測された差と同じか、それ以上に極端な結果が出る確率」です。p値が小さいほど、偶然でこうなったとは考えにくく、差が本物らしいと判断します。

Q: 有意水準5%とはどういう意味ですか？

p値がこれより小さければ「統計的に有意（意味のある差）」と判断する、という線引きの基準です。慣習的に5%（0.05）がよく使われ、「偶然なら20回に1回も起きないことが起きたなら、偶然ではないだろう」と考えます。

Q: p値が小さいと「差がない確率が低い」という意味ですか？

いいえ、それは誤解です。p値は「差がないと仮定したときに、この結果が出る確率」であって、「差がない確率」そのものではありません。主語が違う点が、p値のいちばん誤解されやすいところです。

Q: 「統計的に有意」なら重要な差ということですか？

必ずしもそうではありません。データが大量にあると、実用上は無視できるほど小さな差でもp値は小さく（有意に）なります。有意かどうかと、差が実際に重要な大きさかどうかは、別々に考える必要があります。

Q: t検定とは何ですか？

2つのグループの平均の差が、意味のある差かどうかを調べる代表的な検定です。たとえばAパターンとBパターンの平均クリック率の差などを調べます。帰無仮説を立て、p値を計算し、有意水準と比べる筋道は他の検定と共通です。

ルミィ

「新しい広告にしたら、クリック率が少し上がった」——でも、それは本当に広告の効果でしょうか。それとも、たまたま（偶然）でしょうか。この「偶然か、意味のある差か」を見極めるのが、連載最終回の仮説検定です。

仮説検定と、その中心にあるp値は、統計の山場であり、いちばん誤解されやすいところでもあります。数式は使わず、考え方の“筋道”を図でていねいに追っていきましょう。

統計のきほんは、回帰分析やデータ分析を正しく使うための土台です。この連載を押さえておくと、回帰の結果も“なんとなく”ではなく“意味が分かって”読めるようになります。

📊 連載「統計のきほん」（全4回）

回帰分析やデータ分析の“土台”になる統計の基礎を、数式をできるだけ使わずに、図でやさしく整理する連載です。

標準偏差と分散｜データのばらつきを測る
正規分布｜自然界に現れる釣り鐘型
相関｜相関係数と「相関≠因果」
仮説検定・p値（この記事）｜偶然か、意味のある差か

ルミィ

『偶然でもこれくらいの差は出る？』を確率で考えるのが検定。p値は“偶然っぽさ”のものさしだよ。

仮説検定とp値の図解。「もし偶然なら」の正規分布の山に対し、観測された差が裾の端にあり、その先の面積（p値）が小さいほど偶然では説明しにくいことを示す。 — 図：「もし偶然なら」の山の裾に観測値があるほど、偶然では起きにくい。その裾の面積がp値で、小さいほど“有意”と判断します。

Contents

仮説検定とは？｜偶然か、意味のある差か

仮説検定は、観測されたデータの差（や効果）が、偶然では説明しにくいほど大きいかどうかを、確率で判断する方法です。

たとえば「Aパターンよりも、Bパターンのほうがクリック率が高かった」。この差が、偶然のブレの範囲なのか、それとも本物の差なのか——感覚ではなく、確率にもとづいて線引きする。それが仮説検定の役割です。ABテストや新薬の効果検証など、「効果があったと言ってよいか」を判断する場面で必ず登場します。

帰無仮説と対立仮説

仮説検定は、少し回りくどい“背理法”のような筋道で進みます。まず、2つの仮説を立てます。

帰無仮説——「差はない（偶然だ）」という、つまらないほうの仮説
対立仮説——「差がある（効果がある）」という、本当に言いたいほうの仮説

そして、いったん「差はない（帰無仮説）」と仮定します。そのうえで「もし本当に差がないなら、観測されたこの差は、どれくらい起こりにくいことなのか？」を計算するのです。「差がないと仮定したら、こんな極端な結果はめったに起きない」と分かれば、最初の仮定（差はない）のほうが間違っていた、と考える——これが検定の筋道です。

p値とは？｜“偶然でこうなる確率”

その「めったに起きない度」を表すのが、p値です。図を見てください。山は「もし偶然（差がない）なら、結果はこのあたりに散らばるはず」という分布。観測された差が、その山の端っこ（裾）にあるほど、「偶然では起きにくい」ことになります。

p値とは、「もし差がない（帰無仮説が正しい）と仮定したとき、観測された差と同じか、それ以上に極端な結果が出る確率」です。図のオレンジの裾の面積が、それにあたります。p値が小さいほど、「偶然でこうなったとは考えにくい」＝差は本物っぽい、と判断します。

p値＝「もし差がないと仮定したとき、観測された差以上に極端な結果が出る確率」。小さいほど“偶然では説明しにくい”。

有意水準5%｜どこで線を引く？

では、p値がいくつなら「偶然じゃない」と判断していいのでしょう。その線引きの基準が、有意水準です。慣習的に5%（0.05）がよく使われます。

p値 < 5% なら「統計的に有意（意味のある差）」と判断し、「差がない」という帰無仮説を捨てます。「偶然なら20回に1回も起きないことが起きた。なら偶然じゃないだろう」という考え方です。より厳しく1%を使うこともあります。ただし5%という数字に絶対的な根拠はなく、あくまで“約束ごと”である点は覚えておきましょう。

代表的な検定｜t検定など

検定にはいろいろな種類がありますが、いちばんよく出会うのがt検定です。

t検定——2つのグループの“平均の差”が意味あるかを調べる（例：AとBの平均クリック率の差）
カイ二乗検定——「性別と商品の好みに関係があるか」など、カテゴリどうしの関係を調べる
分散分析（ANOVA）——3つ以上のグループの平均を、まとめて比べる

どれを使うかはデータの種類で変わりますが、「帰無仮説を立て、p値を計算し、有意水準と比べる」という筋道はすべて共通です。Excelやアプリがやってくれるのはp値の計算まで。その意味を読み解くのは、私たちの仕事です。

よくある誤解に注意

p値は、とても誤解されやすい指標です。代表的な勘違いを正しておきましょう。

p値は「差がない確率」ではない——あくまで「差がないと仮定したときに、この結果が出る確率」。主語が違う
「有意」＝「重要」ではない——データが大量だと、ごくわずかな差でもp値は小さくなる。意味のある大きさかは別問題
p値が大きい＝差がない、ではない——「差があるとは言えなかった」だけで、「差がない」と証明したわけではない

最近は、p値だけに頼る危うさ（都合のいい結果が出るまで試す“p-hacking”など）も指摘されています。p値は便利な“ものさし”ですが、万能の判定機ではない——この距離感が大切です。

ABテストで考える｜具体例

いちばん身近な仮説検定が、WebのABテストです。例で考えてみましょう。

Aパターン——1000人に見せて、100人がクリック（クリック率10%）
Bパターン——1000人に見せて、130人がクリック（クリック率13%）

Bのほうが3ポイント高い。でも、これは「Bが本当に優れている」のか、「たまたまBの回がよかった」だけなのか。ここで検定の出番です。「AとBに差はない」と仮定したら、これくらいの差（以上）が偶然で出る確率（p値）はどれくらい？を計算し、5%を切れば「Bは有意に良い」と判断します。感覚の「なんとなくBが良さそう」を、確率の裏づけに変えてくれるわけです。

2種類の“間違い”｜偽陽性と偽陰性

検定は確率で判断するので、間違うこともあります。間違いには2種類あり、知っておくと判断を誤りません。

第一種の誤り（偽陽性）——本当は差がないのに、「差がある」と判定してしまう（あわて者の誤り）
第二種の誤り（偽陰性）——本当は差があるのに、「差があるとは言えない」としてしまう（見逃しの誤り）

有意水準5%とは、「第一種の誤りを5%まで許す」という意味でもあります。この2つの誤りの関係は、AIの評価指標で出てきた「空振り（偽陽性）と見逃し（偽陰性）」とそっくり。どちらの間違いをより避けたいかで、基準の置き方が変わります。

サンプルサイズの大切さ

検定の結果は、データの数（サンプルサイズ）に大きく左右されます。これも落とし穴です。

少なすぎると——本当は差があっても「偶然かも」となり、有意差を検出できない
多すぎると——実用上どうでもいい小さな差まで、すべて「有意」になってしまう

だから、検定の前に「どれくらいの差を、どれくらいの確実さで見つけたいか」を考えて、必要なデータ数を見積もるのが本来の作法です。「とりあえずデータが集まったから検定」ではなく、設計の段階から数を意識する——ここまで来れば、もう立派なデータ分析の使い手です。

検定の結果との“つき合い方”

仮説検定は、ともすると「p値が5%を切ったか／切らないか」の“合否判定”のように扱われがちです。でも、それだけでは少しもったいない使い方です。

効果の“大きさ”も見る——有意かどうか（p値）だけでなく、「どれくらいの差だったか」をセットで報告する
信頼区間も添える——「差は3±1ポイント」のように、推定の幅も示すと情報が豊かになる
1回の結果を過信しない——たまたま有意になることもある。再現できるかが本当の信頼につながる

p値は、「この差は偶然かもしれない」という疑いに、ひとつの答えを与えてくれる便利な道具です。でも、それは判断材料の“ひとつ”にすぎません。p値・効果の大きさ・背景の意味を合わせて、総合的に判断する——そこまでできて、はじめて検定を“使いこなしている”と言えます。

まとめ｜連載のおわりに

仮説検定は、観測された差が「偶然か、意味のある差か」を確率で見極める方法です。まず「差はない」と仮定し、その仮定のもとで観測された差が出る確率（p値）を計算。p値が有意水準（よく5%）より小さければ、「偶然では説明しにくい＝意味のある差」と判断します。

これで連載「統計のきほん」は完結です。標準偏差（ばらつき）、正規分布（釣り鐘型）、相関（関係と因果）、そして仮説検定（偶然か否か）。この4つは、回帰分析やデータ分析を“意味が分かって”使うための、しっかりした土台になります。お疲れさまでした。

統計は、難しい数式の暗記ではありません。その芯にあるのは、『データのばらつきを測り、形をつかみ、関係を疑い、偶然と本物を見分ける』という、とても人間的な“考える作法”です。この連載で身につけた4つの視点は、AIやデータがあふれるこれからの時代に、情報を鵜呑みにせず自分の頭で判断するための、心強い武器になります。数字に強くなることは、だまされにくくなること。ぜひ、手元のデータで一つずつ試してみてください。

仮説検定＝差が「偶然か意味あるか」を確率で判断。

p値＝差がないと仮定したとき、その差以上に極端な結果が出る確率。小さいほど有意。

有意水準5%が目安。ただし「有意≠重要」「p値は差がない確率ではない」に注意。

よくある質問（FAQ）

仮説検定とは何ですか？

A. 観測されたデータの差や効果が、偶然では説明しにくいほど大きいかどうかを、確率で判断する方法です。ABテストや新薬の効果検証など、「効果があったと言ってよいか」を感覚でなく確率で線引きするときに使います。

帰無仮説とは何ですか？

A. 「差はない（偶然だ）」という、つまらないほうの仮説です。仮説検定では、いったんこの帰無仮説が正しいと仮定し、そのもとで観測された差がどれくらい起こりにくいかを調べます。起こりにくければ、この仮定を捨てます。

p値とは何ですか？

A. 「もし差がない（帰無仮説が正しい）と仮定したとき、観測された差と同じか、それ以上に極端な結果が出る確率」です。p値が小さいほど、偶然でこうなったとは考えにくく、差が本物らしいと判断します。

有意水準5%とはどういう意味ですか？

A. p値がこれより小さければ「統計的に有意（意味のある差）」と判断する、という線引きの基準です。慣習的に5%（0.05）がよく使われ、「偶然なら20回に1回も起きないことが起きたなら、偶然ではないだろう」と考えます。

p値が小さいと「差がない確率が低い」という意味ですか？

A. いいえ、それは誤解です。p値は「差がないと仮定したときに、この結果が出る確率」であって、「差がない確率」そのものではありません。主語が違う点が、p値のいちばん誤解されやすいところです。

「統計的に有意」なら重要な差ということですか？

A. 必ずしもそうではありません。データが大量にあると、実用上は無視できるほど小さな差でもp値は小さく（有意に）なります。有意かどうかと、差が実際に重要な大きさかどうかは、別々に考える必要があります。

t検定とは何ですか？

A. 2つのグループの平均の差が、意味のある差かどうかを調べる代表的な検定です。たとえばAパターンとBパターンの平均クリック率の差などを調べます。帰無仮説を立て、p値を計算し、有意水準と比べる筋道は他の検定と共通です。