Copyright (C) 2000 DaiichiGakushusha Corporation. All Rights Reserved.
連載 奥村先生の統計学教室
エデュカーレNo.29より

第4回 偶然?有意? p 値による統計的検定 三重大学教育学部 教授 奥村 晴彦

統計学教室 Indexページ

前回は,アンケート結果の処理について説明しました。例として,従来型教育とICT利用教育を受けた生徒のアンケート結果を比較して,ICT利用教育のほうが肯定的な回答が多いという結果が出ました。それで,報告書に「これこれこういうことがわかった」と書いて提出したとします。

でも,それを見た大学の先生は「これじゃ駄目ですよ。ちゃんと統計的検定をしてください」と言うでしょう。「えっ,統計検定って,英検みたいな検定試験 http://www.toukei-kentei.jp のことですか? そんなの受験しないといけないんですか?」

いや,それじゃありません。統計的仮説検定のことです(紛らわしい検定ができたんですね…)。



1. 前回の復習 ↑UP

前回の例(架空の例ですが)を復習しましょう。生徒40人を従来型教育とICT利用教育に20人ずつ振り分けて授業をおこない,授業に興味が持てた度合を5段階で尋ねたところ,次の結果を得ました。


段階 12345平均
従来型教育 45632 2.7
ICT利用教育 14366 3.6
合計 59998 3.15

ここで,「平均」は
平均 2.7 平均 3.6 で求めています。

単純に考えれば,ICT利用教育のほうが「平均」が大きいので,より生徒が興味を持てたことになります。実際,このような単純計算で結論を導いているアンケートがたくさんあります。

しかし,まったく内容の同じ2つのクラスに振り分けたとしても,ある程度の違いは偶然に出るはずです。ここで出た|3.6−2.7|=0.9 という差は,偶然のばらつきより大きいと言えるでしょうか。



2. 統計的仮説検定 ↑UP

そこで,統計的仮説検定の登場です。統計的検定とか,単に仮説の検定(hypothesis testing)といってもかまいません。

この原理は,いったん「2つのクラスの違いはなかった」と仮定してみることです。このような,「違いはなかった」という仮定(仮説)のことを,帰無きむ仮説(null hypothesis)といいます。このnull(英語風の発音はナル,日本風の発音はヌル)は,「無し」という意味で,情報関係でもよく使われますね。たとえば「ぬるぽ」(null pointer exception)とか…。

帰無仮説に話を戻して,「違いがなければ各クラスの平均は同じになるのではないか」と思われるかもしれませんが,実際には偶然で偏りが生じてしまうことはよくあります。たとえば硬貨を10枚投げたとして,表・裏が5枚ずつになるとは限りませんね。

従来の統計学では,偏りの生じ方を正規分布と仮定して,アンケートの検定には「t検定」というものを使うことが多いのですが,それは高校生向きの方法でもなければ,教科「情報」で扱うべきものでもありません。

以下では,正規分布などを知らない高校生でも理解できて,数学よりは「情報」で扱いやすい方法として,シミュレーションを使う方法を解説します(第一学習社『社会と情報』p.160〜p.163参照)。

シミュレーションを使えば,単なる数学の計算と違って,偶然の効果を体感することができるので,教育的な意味もあります。また,t検定のように正規分布を仮定しないので,アンケートの回答のような正規分布が仮定できない場合にも,妥当な結果が得られます。

この場合,帰無仮説としては,どちらのクラスに属するかによって違いはなく,40人の生徒は次のように答えるという仮定をします。これは単にさきほどの表を「全体」だけにしたものです。

段階    12345平均
合計    599983.15

次に,これら40 人の生徒をランダムに2つのクラスに振り分けます。硬貨を投げて,表なら1組,裏なら2組,ただし片方の組が満杯になったときは空いている組に回すことにしてもいいのですが,片方が満杯という処理がややこしいので,ここでは次のように考えることにします。

40枚のカードを用意して,5枚に「1」と書き,9枚に「2」と書き,9枚に「3」と書き,9枚に「4」と書き,8枚に「5」と書きます。これらをよくまぜて20枚ずつに分け,各群で数字の平均を求めます。平均は必ずしも等しくなりませんね。

紙を用意するのは面倒なので,コンピュータを使ってやってみましょう。たとえば,Excel(でなくても表計算ソフトなら何でもいいのですが)の1つの列に「1」を5個,「2」を9個,…というように40個の数を並べ,その隣りの列に =RAND() と打ちこんで乱数を生成し,その乱数の列をキーとして並べ替えて,上から20個を「従来型教育のクラス」,残りの20個を「ICT利用教育のクラス」とします(どちらがどちらでもかまいませんが)。それぞれのクラスごとに平均を出し,平均の差を求めます。

エクセル例

@列Aに「1」を5個,「2」を9個,「3」を9個,「4」を9個,「5」を8個並べる。

A列Bに乱数 =RAND() を並べる。

B乱数の列をキーとして並べ替える(昇順でも降順でもよい)。並べ替えられたとたんに列Bの乱数は更新されるが,気にしない。

CC21に =AVERAGE(A2:A21),
C41に =AVERAGE(A22:A41) で平均を求め,
D41 に =ABS(C21-C41) で差を求めた。

この図の例では,上半分の平均2.9,下半分の平均3.4となり,差は0.5である。何回か繰り返し,これくらいの差はいくらでも出ることを体感させる。


実際のデータでは,片方が3.6,片方が2.7となっています。差が0.9もあります。偶然で差が0.9以上(以上という場合は0.9ぴったりも含めます)になることはどれくらいあるでしょうか?

シミュレーションを生徒たちにしてもらいます。遅い生徒が1回する間に,速い生徒は数回しているかもしれません。全体の回数と,上20個と下20個の平均の差が0.9以上になった回数を報告してもらいます。おそらく100回やって3回ほど0.9以上になる程度でしょう。

Excelで何100回も効率的におこなうやりかたは,少しトリッキーですが,http://oku.edu.mie-u.ac.jp/
~okumura/stat/excel-resample.html
にあります。また,Rなら,次のようなたった2行のコマンドでできます(折り返して書いています)。次の例では10万回試しています。

x = c(rep(1,5),rep(2,9),rep(3,9),rep(4,9),rep(5,8))
mean(abs(replicate(100000, mean(sample(x,20))) - 3.15) >= 0.45)

結果は3%強ですね。つまり,まったくの偶然で0.9以上の差が出る確率は3%程度です。

このような「まったくの偶然でこれ以上の差が出る確率」を「p(ピーち)」といいます。

p値とは,帰無仮説を仮定したときに,考えている結果以上の差が偶然に得られる確率です。p値のpは,確率(probability)の頭文字です。

p値が小さいほど,単なる偶然とは考えにくいと言えます。後でさらに説明しますが, p値が少なくとも5%以下でないと,「違いがあった」とは言わないのが,科学的な態度とされています。

なお,帰無仮説は,上にあげたもの以外にも考えられます。古典的な統計学でよく使われるのが「正規分布の母集団を仮定する」といったものです。



3. 重み付けと p ↑UP

前回,アンケート処理で(1,2,3,4,5)以外の重み付けを使う話もしました。たとえば(0,0,0,1,1)という重み付けを使って,同じことをしてみましょう。

段階 00011平均
従来型教育 456320.25
ICT利用教育 143660.6
合計 599980.425
y = ifelse(x > 3, 1, 0)
mean(abs(replicate(100000, mean(sample(y,20))) - 0.425) >= 0.175)

やってみると,p 値は0.05をこえてしまいました。同じアンケート結果でも,「平均」を求めるときの重み付けによって,p 値は変わってきます。

一般に,5段階なら(1,2,3,4,5)のような5段階の値を使うほうが,(0,0,0,1,1)のように2段階にまとめるより,p 値が小さくなり,偶然に対して強くなります。これは,前者のほうが情報量が多いので,ほぼ当たり前ですね。

ただし,アンケートをおこなって結果を得た後で,p 値ができるだけ小さくなるように重み付けをあれこれ探すのは,「p ハッキング」と呼ばれ,やってはいけないとされています。

この5段階評価・2段階評価と少し似た話として,入学試験の点数が1点刻みではいけないので,段階を荒くしようという話がありましたが,これも段階を荒くするほど情報量が減って,偶然の要素が強くなります。



4. p 値がどれくらい小さければいいか ↑UP

一般に,教育統計などでは,p 値が0.05(つまり5%)以下であれば「有意」(significant)だということが多いのですが,なぜ5%なんでしょう?

5% という値は,特に科学的な根拠はないものの,伝統的に使われています。消費税が5%をこえるとたいへんだというのと同じくらい,心理的なものでしょう。正規分布だと2(標準偏差の2倍)の外側が約5%ですので,覚えやすい値でもあります。

ところが,コンピュータで p 値が簡単に求められるようになり,アンケートでいろいろ尋ねたり,たくさん測定したりして,たくさん p 値を求めると,単なる偶然でも20回に1回は0.05以下のp 値が出てしまうので,有意な結果が粗製濫造されるという問題が起きてきました。ちゃんとした論文誌に掲載された有意な結果でも,他の人が同じことをやってみても再現できないということが頻繁に起きるようになりました。これは,意図した捏造ではありませんが,大きな問題です。

2012 年に発見されたヒッグス粒子は,メディアでも大きく扱われ,提唱者たちが2013年にノーベル賞を受賞しましたが,素粒子物理学での「発見」(discovery)は,偶然をできるだけ避けるため,正規分布にして5以上(標準偏差の5倍以上)に相当するp値が要求される習慣になっています。具体的には p <3<10-7 つまり偶然では300万回に1回しか起こらないことが起きないと「発見」になりません。




統計検定と情報模試

本文でも触れましたが,日本統計学会では「統計検定」という検定試験をおこなっています。4級から1級まであります。高校生は4級〜3級,先生方なら3級〜1級にぜひ挑戦してください。詳しくは,
  http://www.toukei-kentei.jp/
をご覧ください。

「情報」も負けてはいられません。情報入試研究会
  http://jnsg.jp/
では,大学情報入試全国模擬試験を随時おこなっています。これも高校生だけでなく,一般の方や情報科教員のかたにもぜひ受験していただき,ご意見をお聞かせください。



  ↑UP

四分位数の計算のしかたはどうして教科書とExcel で違うの?

高校「数学 I 」に四分位数(しぶんいすう)が入りました。これはExcelなどの表計算ソフトウェアで簡単に出せる基本的な統計量なので,第一学習社『社会と情報』p.40 でも取り上げています。

ところが四分位数の定義には,いくつかの流儀があります。どの流儀に従うかによって,微妙に結果が異なります。とくに,四分位数を流行らせたテューキーの流儀,高校「数学 I 」の流儀,Excel の流儀がすべて違うので,現場に混乱があるようです。

まず,「テューキーってだれ?」という話から。

高校の「情報」の教科書では,「ビット」という単位の発案者と書かれているくらいだろうと思います。また,時系列データを周波数に変換するFFT(高速フーリエ変換)の「クーリー・テューキーのアルゴリズム」の発案者の1人として知られています(もっとも,数学者ガウスも同じ方法を考案していたようです)。

統計学者としては,「探索的データ解析」の提唱で有名です。これは,データを機械的にコンピュータに投げこんで統計量を求めるのではなく,データを手でいじりながら図にしたり表にしたりして,そこからいろいろなことを読み取っていく方法です。

1977 年に出版されたExploratory Data Analysis という有名な本で,テューキーはまずみき幹は葉図(stem-andleaf display)について説明します。これはテストの点数の度数分布をあらわすのによく使われているもので,

幹葉図

のように10の位で分類して1の位の数字を並べる棒グラフ的なものです。

幹葉図を見れば,最大値・最小値はすぐわかりますし,上と下から数えていって真ん中の値を調べれば,中央値(メジアン)がわかります。テューキーはさらに,上半分と下半分の中央値「ヒンジ」(四分位数)を,次のような例で説明しています。

ヒンジ

この13個の数のうち,1.5が中央値で,0.1と3.0がヒンジです。

ヒンジ(hinge)は蝶番(ちょうつがい)を意味する英語です。なぜ蝶番かは,上の説明図を見れば明らかですね。「ビット」もそうでしたが,こういうわかりやすい用語がテューキーの語りの魅力の1つです。

テューキーは,最大値・最小値・中央値・2つのヒンジをあわせて,五数(ごすう)要約(five-number summary)と呼んでいます。この五数要約を使って,箱ひげ図(box-andwhisker plot,boxplot)を描きます。

Excelでも,quartile関数(またはquartile.inc関数)を使えば,同じ結果が出ます。

残念ながら,高校「数学I」の各社教科書が採用した流儀では,こうはなりません。数学教科書の流儀では,中央値を除いた下半分・上半分の中央値を求めますので,第1四分位数は−0.4と0.1の平均の−0.15,第3四分位数は3.0と4.3の平均の3.65です。この方式は,教科書会社の質問に対する文科省の回答に基づくものだそうです。

以上は個数nが奇数の場合です。nが偶数の場合は,テューキーも,数学教科書も,下半分のn/2個の中央値,上半分のn/2個の中央値を使います。Excelは,より正確に1/4単位で補間します。たとえば(1,2,3,4)という4個の数の四分位数は,テューキーや文科省の流儀では1.5と3.5ですが,Excelの流儀では1.75と3.25です。テューキーは暗算で求めやすい流儀にこだわったようですが,今日のように簡単にコンピュータが使える時代なら,Excelの流儀を使っていたかもしれません。

実は,四分位数(あるいは一般の分位数)を求める流儀は,ほかにも考えられます。オープンソースの統計ソフトウェア「R」のヘルプのquantileの項目では,9通りの流儀が紹介されています。

「どの流儀を使うかで答えが違っては困るではないか?」と思われるかもしれませんが,もし無視できないほどの違いが出るなら,それは四分位数を使うべきではない状況です。四分位数はあくまでも自然な連続分布をする多数の値について使うべきものです。テューキーの本でも,いきなり五数要約ではなく,幹葉図を描いて分布を調べることからはじめています。分散を求める際にも,nで割る方式とn-1 で割る方式がありますが,高校生レベルでは,違いを気にする必要はまったくありません。


©Daiichigakushusha