Copyright (C) 2000 DaiichiGakushusha Corporation. All Rights Reserved.
連載 奥村先生の統計学教室
エデュカーレNo.28より

第3回 アンケート回答と"重みづけ" 三重大学教育学部 教授 奥村 晴彦

統計学教室 Indexページ

今回は,最近の統計学ブームやビッグデータ・オープンデータの話を前ぶりにして,アンケート処理の話を取りあげます。



1. 統計学ブームとビッグデータ ↑UP

GoogleのHal Varianが2009年に"the sexy job in the next ten years will be statisticians" (次の10年間でセクシーな仕事は統計学者だ)と言って話題になりましたが,ここ数年はまさに統計学ブームです。一般向けの統計学の本がベストセラーになったり,統計検定[1]が人気を集めたりしています。

今人気の統計学は,以前の小標本(たとえば数10件のデータ)にもとづく数学寄りの統計学というよりは,情報技術の発展によりビッグデータが扱えるようになったことから,ビッグデータからどのようにして意味のある結果を導き出すかが関心の的になっているようです。

統計学はビッグデータなど不要だ,標本調査で十分だという声もありますが,標本調査ができるのは全体が把握できているからです。たとえば電話で世論調査ができるのは,固定電話番号が全世帯に1つずつ振られている(本当は正しくないけれどもそう仮定している)ためです。ツイッターの「つぶやき」を調べようと思ったら,たとえその中から無作為抽出した標本を調べるのでよくても,全ツイートの集合がわかっていないと無作為抽出がうまくできません。また,ある一連のツイートの発端となる1つのツイートを見つけたいなら,結局は全部のツイートを調べるしかありません。

私も東日本大震災から1週間の日本語の全ツイートを調べたことがありました[2]が,1億8千万ツイートありました。これくらいなら,今は数万円のパソコンで十分な「スモールデータ」ですが,もちろんExcel ではできないので,確かな情報処理技術を身につけていなければなりません。



2. オープンデータ ↑UP

これはビッグデータにかぎった話ではありませんが,公開可能なデータはネットでどんどん公開するほうが社会全体のためになるという考え方が少しずつ受け入れられるようになってきました。それだけではたいした意味を持たないと思われるデータでも,他のデータと組みあわせれば,役に立つのです。

データがどんどんネットで公開されれば,それらを自動的に収集して,いろいろなデータをかけあわせて解析したくなります。そのためには,公開されたデータは「機械可読」である(読み取るのに人間が介在しなくてよい)必要があります。PDF形式で公開されたデータよりExcelファイルで公開されたデータのほうが機械可読性がよく,見た目をこだわったExcelファイルよりは単純に数値や文字列を並べただけのCSVファイルのほうが機械可読性がよいというわけです。

こういったデータはhttp://www.e-stat.go.jp/などでたくさん公開されていますので,Excelによるデータ処理の練習に役に立ちます。

学校に関係するデータは,文科省や国研(国立教育政策研究所)などからもたくさん公開されています。以下では,教員のICT活用指導力に関するアンケートなどを例にとって,アンケート処理についての話を取りあげます。



3. アンケート処理 ↑UP

図1は,文科省「平成23年度学校における教育の情報化に関する調査結果」[3]にある中学・高校の教員対象の「教員のICT活用指導力チェックリスト」という質問紙です。

回答は「1:ほとんどできない」「2:あまりできない」「3:ややできる」「4:わりにできる」の4択です。

しかし,文科省はせっかく4段階で答えさせているのに「3:ややできる」「4:わりにできる」をあわせた割合しか発表していないようです。たとえば項目A-1 からA-4 までについて「3:ややできる」または「4:わりにできる」と答えた高校教員の割合を平均すると,トップは愛媛県で97.3%,最下位は宮崎県で70.4% という具合です。これでは,がんばって1を2に,3を4に改善しても順位は上がりません。最初から2段階で答えさせてもよかったのではないでしょうか。

2段階にまとめる方法に対して,回答の4段階をそのまま1〜4の数値に置きかえて使うことも,広くおこなわれています。このタイプのデータを「リッカート(Likert)型のデータ」ということがあります。

このリッカート型のデータの値1〜4をそのまま平均することについては,批判的な人が大勢います。「順序尺度(x1x2x3x4)でしかないものをあたかも間隔尺度(x2 - x1 = x3 - x2 = x4 - x3)のように足して人数で割ったりするのはけしからん」というわけです。そのような批判を逃れるため,文科省は上半分(3・4)の割合だけを使ったのかもしれません。これは各段階の重みづけを(0, 0, 1, 1)にしたことに相当しますが,重みづけを(1, 2, 3, 4)とする場合とくらべて本当に優れているのでしょうか。少なくとも,せっかく4択で答えさせたのですから,各段階の割合まで発表してほしかったところです。

このように,せっかく4択(以上)で聞いても,発表のときに2段階にまとめてしまうことは,新聞やテレビの世論調査の報道でもよくあります。たとえばNHKは,ある政党の人気が低落傾向にあることを次のようなことばで報道していました(2012年8月13日):

「大いに期待する」と「ある程度期待する」をあわせた「期待する」が先月より7ポイントさがったのに対し,「あまり期待しない」と「まったく期待しない」をあわせた「期待しない」が8ポイントあがりました。

こういったまとめ方の是非はさておき,まずはこのような情報をうまくグラフであらわせないか考えてみましょう。

図1 教員のICT 活用指導力チェックリスト(中学校・高等学校版)
図1 教員のICT 活用指導力チェックリスト(中学校・高等学校版)

(文部科学省「平成23年度学校における教育の情報化に関する調査結果」,2012年)



4. アンケート結果をグラフであらわす ↑UP

ここでは,表1のような架空のアンケート結果を考えましょう[4]

次の表は,生徒40人を従来型教育とICT利用教育に20人ずつ振り分けて授業をおこない,授業の内容に興味を感じた度合を5段階(1〜5)で尋ねた際の度数(人数)をあらわす架空のデータです。右端の「平均」は,5択の回答をそれぞれ1〜5として平均したものです。たとえば従来型教育では
 (1 × 4 + 2 × 5 + 3 × 6 + 4 × 3 + 5 × 2) ÷ 20 = 2.7
というわけです。

段階 12345平均
従来型教育 45632 2.7
ICT利用教育 14366 3.6
合計 59998 

このような順序のある人数(または割合)をグラフであらわして比較するには,一般には次のような帯グラフが使われます。

別の方法として,まんなかの階級のまんなかを揃えて描く方法もあります(これはRのHHパッケージのplot.likert()関数の方法です):

ここでは横軸は人数としましたが,割合としてもかまいません。たとえば,さきほどの政党への期待については,次のようなグラフであらわせそうです:

このような4 択であれば,ちょうど下半分「1・2」と上半分「3・4」を比較する図になります。



5. 最適な重みづけはあるのか ↑UP

4択アンケートの文科省やNHKの扱い方は,重み(0, 0, 1, 1)に対応し,リッカート流の扱い方は重み(1, 2, 3, 4)に対応することを説明しました。これらのほかに,重みづけの方法はあるのでしょうか。

この方面で定番のAgrestiの本[5]には,いろいろな方法が載っています。ここでは「ノンパラメトリック検定」というジャンルの方法の中で,もっとも基本的なウィルコクソン(Wilcoxon)の順位和検定の考え方にもとづいた方法を説明します。これは両群をあわせたもので順位をつけ,各群の順位の和を比較する方法です。ただし,アンケートの回答のように同順位(タイ)が多い場合は,順位のつけ方に工夫が必要です。

まず,いちばん左側の「1」と答えた人から考えます(右側から考えても同じです)。従来型教育では4人,ICT利用教育では1人おり,あわせて5人です。この人たちに,左から数えた順位をつけるとすれば,1位から5位になりますが,実際は同点なので,順位の平均をとって全員が3位であると考えます。このようにして求めた順位を「ミッドランク(midrank)」といいます)。同様に,「2」と答えた人は9人おり,左から数えた順位は6位から14位になり,その平均10がこの9人のミッドランクになります。同様にして次の表のようなミッドランクが得られます。

このミッドランクを順位として考えると,第1群(従来型教育の群)の順位の和は
  3 × 4 + 10 × 5 + 19 × 6 + 28 × 3 + 36.5 × 2 = 333
となります。(細かいことを言うと,Wilcoxonの順位和検定では,この順位和の理論上最小の値20 × ( 20 + 1 ) / 2 = 210 を引いた値U = 333 - 210 = 123 を使って検定するのが一般的です)。いずれにしても,これは重みづけにミッドランク(3, 10, 19, 28, 36, 5)を使っていることになります。ミッドランクは,考えている群だけでなく,ほかの群の結果もわからないと計算できないのが面倒なところです。

このほか,上記Agrestiの本には,ミッドランクから0.5を引いて総数で割ったリジット(ridit)や,それを正規分布の分布関数の逆関数で変換したものを使う方法も紹介されています。

しかし,どんなに複雑なものを使ってもより客観的になるわけでもないので,重みづけは恣意的であると割り切って(0, 0, 0, 1, 1)でも(1, 2, 3, 4, 5)でも好きなものを使いましょう。ただし,事後的に自分の出したい結果になるような重みづけを選ぶのは,当然ながらまずいやりかたです。



6. おわりに ↑UP

アンケートをして「○○と答えたのは何パーセントであった」と言われてもなかなかピンとこないと思います。調査結果に意味を持たせるコツは,何かと何かを比較することです。たとえば上の例のように従来型教育とICT利用教育を比較すれば,それぞれの教育方法にどのような特徴があるのかがわかります。同様に,1・2・3年生を比較したり,理系クラスと文系クラスを比較したり,女子と男子を比較したりすれば,おもしろい結果が得られるかもしれません。

ここで最初のビッグデータの話とつながるのですが,たくさんのことを調べたデータになればなるほど,いろいろな比較が可能になり,何10通りもの比較をしてたまたまおもしろい結果が得られたものだけを取り出して発表することがありえます。こういったことは,data dredging (データの浚渫(しゅんせつ))といって,いわゆる「統計のウソ」の1つです。血液型と性格の関係なども,この種のウソである可能性があります。おもしろい結果は,つねに「偶然かもしれない」ということを考える必要があるのです。

次回はこの「偶然かもしれない」度合の計算のしかたについて説明します。



参考資料 ↑UP

[1] 統計検定
 http://www.toukei-kentei.jp/

[2] プロジェクト311 − Twitter
 http://oku.edu.mie-u.ac.jp/~okumura/prj311/tw/

[3] 文部科学省「平成23年度学校における教育の情報化に関する調査結果
 http://www.mext.go.jp/a_menu/shotou/zyouhou/1323235.htm

[4] 奥村晴彦「情報教育研究における統計的方法の利用」情報処理学会情報教育シンポジウムSSS2012論文集,pp. 91−96(2012年8月)

[5] Alan Agresti, Analysis of Ordinal Categorical Data, 2nd ed. (Wiley, 2010).


©Daiichigakushusha