Copyright (C) 2000 DaiichiGakushusha Corporation. All Rights Reserved.
連載 奥村先生の統計学教室
エデュカーレNo.30より

第5回 ユーイサキタ━━(゚∀゚)━━ッ!! それでいいのか? 三重大学教育学部 教授 奥村 晴彦

統計学教室 Indexページ

前回は p 値の話をしました。今回は,その復習と,その続きの「信頼区間」という概念について説明します。



1. 二項分布を使った p 値の復習 ↑UP

前回の p 値の話の復習をしましょう。同じ例ではおもしろくないので,今回は,二項分布を使った例を説明します。

硬貨(10円玉とか)を投げると表・裏のどちらかが出ます(上を向きます)。表が出る確率が θ の硬貨があったとします(ここでは p 値と区別するために,確率を θ と書いています)。この硬貨を n 回投げたとき,表がちょうど r 回出る確率は,
確率 で計算できます。この確率を r の関数と見たもの(つまり r の確率分布)を二項分布といいます。ここで nCrn 個から r 個を選ぶ組み合わせの数で,
組み合わせの数 です。なお,ここでは使いませんが,r の平均値(期待値)は,
平均値 分散は
分散
であることも数学で簡単に導けます。また,n→∞ で二項分布は正規分布に近づきます。

ちなみに硬貨は「平成◯◯年」のような年号のあるほうが裏ですが,どちらを裏と考えても,ここでの議論は同じです。

さて,硬貨が表裏まったく対称ならば,インチキをしなければ,表の出る確率は θ=0.5 です。硬貨を投げる回数を n=10 として,度数分布を計算し,ヒストグラムを描いてみましょう。Excelでは,nCrCOMBIN(n,r) で求められます。
これにθ r(1−θ)n−r を掛けた二項分布の確率を求める関数 BINOM.DIST (r,n,q,FALSE) もありますが,素直に0.510 (Excelでは0.5^10)を掛けても手間は変わりませんね。グラフも描いてみましょう。

図1 二項分布をExcelで計算する
図1 二項分布をExcelで計算する

ちなみに,オープンソースの統計ソフト「R」では,nCrchoose(n,r) で求めます。これに θ r(1−θ)n−r を掛けた値は dbinom(r,n,q)で求められます。

さて,このような状況で,硬貨を10回投げて,表が1回しか出なかったとします。これはどれくらい珍しいことでしょうか。

表が1枚出る確率は0.009766です。度数分布を見ると,これ以下(この値も含む)の確率は全部で4個あります:
  0.000977,0.009766,0.009766,0.000977
これを全部足し合わせると,
  0.000977+0.009766+0.009766+0.000977=0.021484
です。これが,θ=0.5を仮定したときの,「表が1枚出た」という事象の「 p(ピーち)」です。要するに,p 値は「それまたはそれより珍しい事象が生じる確率」です。p 値は何桁も求めても意味がありません。p=0.021でも p=0.02でも十分です。

同様に,表が2枚出る確率は0.043945です。度数分布を見ると,これ以下の確率は全部で6個あり,それらを全部足し合わせると,p=0.109375になります。したがって,「表が2枚出る」の p 値は p=0.11ほどです。

このような p 値は,それを計算するために使った仮定(帰無仮説)と実験結果とがコンシステント(首尾一貫している,矛盾がない)かどうかの程度を,確率のことばを使ってあらわしたものです。p 値が非常に小さければ,その実験結果は帰無仮説を否定する根拠となります。

統計学の本には,「 p 値が『ある値』以下であれば帰無仮説を棄却する」と書いてあります。「ある値」としては,分野によりますが,0.05という値が合意されていることが多いようです。この場合,10回投げて1回しか表が出なければ,p=0.021≦0.05ですので,「θ=0.5である」という帰無仮説を棄却することになります。2回表が出れば p>0.05ですので,帰無仮説を棄却できません。

帰無仮説を棄却することを,「統計的に有意である」と言ったり,とくにサンプル間の差に関連して「有意差がある」と言ったりすることもあります。この「有意差」ということばが一人歩きして,「ユーイサを出さなければ論文をアクセプト(論文誌に採録されること)してもらえない」「ユーイサが出るまでいろいろ統計的方法を変えてやってみる」といった研究者が出てくるわけです。

さらに困ったことに,統計学の本によっては,「p 値が『ある値』以下であれば帰無仮説を棄却する」だけでなく「p値が『ある値』より大きければ帰無仮説を採択する」と書いている本があるので,「10回中2回表が出れば『硬貨は歪んでいない』と結論しなければならない」と誤解する研究者もいます。

硬貨の歪みくらいなら実害はないかもしれませんが,薬の効果を調べる実験で統計的に有意な結果が出なかったので,その薬は効果がないと判断してしまっていいでしょうか。実際,過去において効果がないと判断された薬について,おこなわれた実験を全部あわせて再解析してみたところ,統計的に有意な効果が認められたということもあります。

一方で,p≦0.05を有意とするなら,偶然に有意になることが20回に1回あり,研究者が20回実験してたまたま有意になった1回の結果だけ論文として出版され,効果がないものが効果ありと判断されてしまうことも生じています。

p 値そのものは便利な値ですが,このように「ユーイサが出るか出ないか」という単純すぎる思考を誘発するようであれば,むしろ有害というべきでしょう。



2. 信頼区間 ↑UP

「表の出る確率が0.5であるという帰無仮説は棄却できるか」といった禅問答みたいな話ではなく,「表の出る確率はいくつか」という問題を設定するほうが具体的です。たとえば10回投げて表が4回出たなら,「表の出る確率は0.4あたりである」と言えばいいでしょう。

ただ,「0.4あたり」というのは,「0.39から0.41の間くらい」なのか,「0.1から0.7の間くらい」なのかで,話は全然違います。このような「確からしい範囲」が信頼区間です。

信頼区間の定義は,ざっくり言えば,「実際の実験結果とコンシステントな帰無仮説のパラメータ θ の範囲」です(硬貨投げの問題の場合,θ は表の出る確率です)。

より厳密な定義は後回しにして,ここではまず信頼区間をコンピュータで求めてみましょう。

これは生のExcelではできないので,オープンソースの統計ソフト「R」を使います。たとえば硬貨を10回投げて4回表が出たなら,

	binom.test(4, 10)	
と打ち込めば

	binom.test(4, 10)
	Exact binomial test
	data: 4 and 10
	...(中略)...
	95 percent confidence interval:
	 0.1215523 0.7376219
	sample estimates:
	probability of success
	                   0.4
というふうに,95%信頼区間(confidence interval)が0.1215523から0.7376219までの範囲であることがわかります。実際にはこんな精度は必要ありませんので,
  0.12から0.74までの範囲
または区間をあらわす数学の書き方を使えば
  [0.12,0.74]または(0.12,0.74)
と書きます(閉区間か開区間かは関係ありませんのでどちらでもかまいません)。つまり,10回投げて4回表が出たら,
  表の出る確率は0.4(95%信頼区間[0.12,0.74])
と報告すればいいことになります。「95%」の意味は後で説明しますが,ちょうど p 値の区切りの「5%」に対応した値になっています。

10回投げて4回表が出ても,100回投げて40回表が出ても,1000回投げて400回表が出ても,表の出る確率を1つの値であらわしたもの(点推定値)は0.4に変わりありませんが,95%信頼区間はそれぞれ[0.12,0.74], [0.30,0.50], [0.37,0.43]と,だんだん縮まっていきます。



3. 信頼区間の厳密な定義 ↑UP

信頼区間は,p 値の計算の考え方を使って求められます。ただ,さきほどの p 値の説明では分布の両側の確率を使いましたが,信頼区間を求めるときには片側の確率を使うほうが一般的です。そのため,区切りの値も,両側5%でなく,片方2.5%ずつにします。

たとえば,硬貨を10回投げて4回表が出たとしましょう。表の出る確率がθ=0.5であれば,表が0〜4回出る確率は,二項分布より
  0.001+0.01+0.04+0.12+0.21=0.38
程度です。表の出る確率をいろいろ変えてやってみると,表の出る確率がθ=0.74くらいのとき,表が0〜4回出る確率は0.025(つまり5%の半分の2.5%)になります。そこで,この0.74という値を,信頼区間の上限とします。

図2 θ=0.74 の二項分布
図2 θ=0.74 の二項分布

同様に,表が4回以上出る確率がやはり0.025(2.5%)になるように,表の出る確率を調節します。計算は略しますが,表の出る確率が約0.12であればいいことがわかります。これを信頼区間の下限とします。

図3 θ=0.12の二項分布
図3 θ=0.12の二項分布

このようにして求めた「0.12〜0.74」という範囲を,「95%信頼区間」と定めます。



4. 物理学での信頼区間 ↑UP

物理学・化学などのハードサイエンスでは,古くから信頼区間が使われています。たとえば重力定数,つまり1kgのもの2つを1m離して置いた場合にそれらが引きあう力(単位:N(ニュートン))は,
  (6.67384±0.00080)×10−11
です。物理では,こういうを使った書き方をした場合には,何も断らなければ68.3%信頼区間を意味します。68.3%という値は,正規分布の場合にちょうど±1σに相当するものです。正規分布の場合には±1.96σが95%になりますので,68.3%信頼区間の幅を1.96倍(約2倍)すれば95%信頼区間が得られます。



5. 医学・疫学研究での信頼区間 ↑UP

医学・疫学方面でも,信頼区間の考え方が普及しています。

たとえば,ヨーグルトを毎日摂ると,糖尿病(2型)になる確率(危険度)が減少するという報告がありました(http://www.biomedcentral.com/1741-7015/12/215)。どれくらい減少するかというと,危険度にして0.83倍(95%信頼区間(0.75, 0.92))になるとのことです。

単に「危険度が有意に減少した」だけでは駄目,危険度が0.83倍になるというだけでも駄目で,具体的な危険度とその信頼区間まで調べなければいけない,というのが現在のベストプラクティスです。



6. 信頼区間の考え方と社会 ↑UP

2011年3月11日の東日本大震災では,津波の高さの予報値が最初小さすぎたため,聞いた人が安心して逃げなかった可能性があります。この反省から,予報を「巨大」「高い」などのあいまいな表現にしたり,数値を出す場合は最大限に見積もった値にしたりするようになりました。

しかし,あまりにも過大な予報値ばかりだと,「外れ」が増え,予報そのものが信用されなくなるおそれもあります。

信頼区間の考え方に慣れた人が増えれば,予報に信頼区間を使う日が来るかもしれません。



7. リサンプリングによる信頼区間 ↑UP

二項分布や正規分布のような有名な分布なら,「R」のような統計ソフトを使えば厳密な信頼区間が求まります。

しかし,現実の問題では,分布があらかじめわかっていないことのほうが多いでしょう。

そんなときにも使えるのが,リサンプリングを使った信頼区間の求め方です。統計学ではこの方法を「ブートストラップ法」と呼んでいます。ブートストラップは靴ひものことで,水に沈まないように靴ひもを持ち上げて川を渡るという冗談話が起源です。ちなみに,コンピュータを起動することを「ブートする」といいますが,これもブートストラップから来たことばです。

統計学のブートストラップは,本来は母集団からサンプリングしてサンプル(標本)を得るべきところを,すでに得られたサンプルから重複を許して同じ個数だけリサンプル(再サンプル)することによってたくさんのサンプルを作り出し,それらから求めた統計量の分布から信頼区間を求めるという賢い方法です。

この方法を使えば,数学や統計学の知識を必要とせずにコンピュータで信頼区間が求められますし,コンピュータがなくても大勢で実験してみることもできるので,入門的な素材として便利です。

これが第一学習社『社会と情報』p. 162-163 で述べたサンプリング・リサンプリングの背景知識です。数学を使うと難しいことも,コンピュータを使って数値的に実験してみれば答えが見つかるという「モデル化とシミュレーション」の教材としてご活用ください。


©Daiichigakushusha