Copyright (C) 2000 DaiichiGakushusha Corporation. All Rights Reserved.
連載 奥村先生の統計学教室
エデュカーレNo.26より

第1回 トンデモグラフ,世にはばかる 三重大学教育学部 教授 奥村 晴彦

統計学教室 Indexページ

<編集部よりお詫び>
諸般の事情により,原稿を執筆いただいてから掲載まで, 1 年近くたってしまいました。
あげていただいた例もやや古くなり,すでにWeb 上からなくなってしまったものもありますことをご容赦ください。



1. はじめに ↑UP

従来から小学校の算数で棒グラフ・折れ線グラフ・円グラフ・帯グラフ等が扱われていましたが,中学校・高校の数学では統計は事実上扱われない状態が長く続いていました。これがいわゆるPISA型学力の低下の一因となっているという批判もあり,今回の学習指導要領の改訂で統計関係が華々しく復活することになりました。

統計の実践ではコンピュータの利用が欠かせません。コンピュータを使ってデータから情報を読み取ることは情報科の大切な内容でもあります。今後は数学と情報で統計の理論と実践を相補的に扱っていくことが期待されます。

本稿では,情報科の立場から,統計的内容の考え方・教え方を扱っていくことにします。何らかのヒントになれば幸いです。



2. 3次元にしない ↑UP

図1をご覧ください。これはマイクロソフトのウェブページ[1]にあるExcel 2010 のグラフの例です。何のためにななめに描くのでしょうか。これでは数値がちゃんと読み取れません。このソフトウェアに3次元グラフの機能があることを誇示する以外の意味はありません。ちなみに,縦軸の0点の表示も変です。目盛の桁数も多すぎます。単位を万円か百万円にすれば,もっとすっきりするでしょう。

図1 縦棒グラフの例
図1 縦棒グラフの例[1]

図2も同じウェブページにあるExcel 2010の円グラフの例です。これもななめに描いているので,サンドイッチがサラダの2倍近くあるはずなのに,サラダが手前にあるため,それほどの違いに見えません。サラダとスープを合わせても36%で,サンドイッチの40%より少ないはずですが,サラダ+スープのほうが大きく見えます。飲料とデザートの順序も逆がいいかもしれません。

さらに大きな問題は,この凡例の書き方では,色を識別できないと,どこが何をあらわすかわからないことです。これについては後で説明しますが,この場合については,項目のラベルは円グラフの各セクションのすぐ横につけるべきですね。

図2 円グラフの例
図2 円グラフの例[1]

このように,データが語ることを素直に伝えるグラフより,特定のソフトウェアがもっている機能に振り回されたグラフが,身の回りにはたくさんあります。たとえばExcelには積み重ね棒グラフの3次元版として図3のような円錐形やピラミッド型のものがありますが,いったいどんな場合に使うのでしょうか。ソフトウェアのいろいろな機能をあえて使わないという選択のほうが,この場合には正しいのです(サラダとスープを誇張したいのでなければ)。

図3 円柱グラフ・円錐グラフ・ピラミッドグラフ
図3 円柱グラフ・円錐グラフ・ピラミッドグラフ[1]

このような例は私のブログ(http://oku.edu.mie-u.ac.jp/~okumura/blog/)で多数取り上げています。ブログ内で「3Dグラフ」で検索してください。

ちなみに,グラフだけでなく,Excelの計算結果も,統計の専門家には非常に不評です(私のブログ内で「Excel」で検索してください)。



3. 棒グラフの根元を省略しない ↑UP

図4は有名なOECD生徒の学習到達度調査(PISA)の問題です。これは棒グラフの根元を省略しているために,数値が激増しているように見えるものです。このような強調のテクニックは,ビジネス界では当たり前のように使われていますが,高木浩光さんの有名なブログ[3,4]でも取り上げられているように,強調というよりは捏造というべきものです。

図4 PISAの省略棒グラフの問題
図4 PISAの省略棒グラフの問題[2]

もう一つ例を示しておきましょう。図5ではBlu-rayがDVDを追い抜いたように見えますが,よく見ると目盛が0から始まっていません(後に訂正されました)。

図5 DVDとBlu-ray Discの映像ソフト市場規模推移
図5 DVDとBlu-ray Discの映像ソフト市場規模推移


4. 棒グラフは比率尺度の量を示すときに使おう ↑UP

スティーブンス[5]によれば,データの尺度には名義尺度,順序尺度,間隔尺度,比率尺度(比例尺度)があります。

名義尺度
男女,好きな色(赤青黄…)のように,順序がないもの。生徒の出席番号も名義尺度である。

順序尺度
「非常に反対」「反対」「どちらでもない」「賛成」「非常に賛成」のように,順序関係しかないもの(アンケートの処理ではあたかも間隔尺度のように扱われることがあるが)。

間隔尺度
セ氏温度(℃)のように,温度の差には意味があるが,0点には意味がないもの。20℃は10℃の2倍ではない。

比率尺度
重さのように,基準となる0点があり,2kgは1kgの2倍というように,比の値にも意味があるもの。

棒グラフであらわせるのは比率尺度のデータです。間隔尺度を棒グラフであらわそうとすると,図6の気温の棒グラフのように,みっともないことになります。

図6 平成20年度センター試験理科総合B,28ページ,図1
図6 平成20年度センター試験理科総合B,28ページ,図1


5. 折れ線グラフを0から始める必要はない ↑UP

折れ線グラフは,変化(特に時間変化)を示すために使うものです。縦軸も横軸も,0点に意味がなく,0から始める必要はありません。

図7は平成18年社会生活基本調査[6]の「生活時間編・時間帯編・平均時刻編 結果の概要」の8ページにあるグラフです。0点を無理に含めようとして,縦目盛を圧縮したため,たいへんわかりにくくなってしまっています。図8のようにすればわかりやすいでしょう。

図7 15歳以上男女別睡眠時間の推移
図7 15歳以上男女別睡眠時間の推移[6]
図8 図7 を描き変えたもの
図8 図7 を描き変えたもの

このような折れ線グラフの縦横比は,折れ線の傾きが45°程度になるように描くのが最適といわれています。この原則をクリーブランドは“banking to 45°”とよんでいます[7]



6. 折れ線グラフの横軸は名義尺度にしない ↑UP

横軸が出席番号,縦軸が試験の点数をあらわす折れ線グラフを見かけますが,折れ線グラフの本来の使い方ではありません。出席番号が名義尺度であり,順序に意味がないからです。

折れ線グラフの横軸は,間隔尺度以上(間隔尺度または比率尺度)が好ましいのですが,場合によっては順序尺度も可能です。例外として,エゴグラムは横軸が名義尺度ですが,横軸の項目の順序を固定することによって,折れ線グラフの形で性格をあらわそうとしています。



7. チャートジャンクは避けよう ↑UP

情報デザインの分野で名高いタフティ[8]は,グラフに含まれる情報量のない視覚的な飾りを「チャートジャンク」とよんで,避けるべきものとしています。たとえば図9はチャートジャンクの多いグラフです。この場合,棒グラフの高さだけでなく幅も変化してしまっているので,実際以上に増えているような錯覚に陥ります。

図9 チャートジャンクな図
図9 チャートジャンクな図[9]

タフティはまた,グラフを印刷するときに使うインクの量のうち,本来のデータの表現に使っているインクの量の割合を「データ・インク比」と呼び,これが最大になるようなグラフを描くべきであるとしています。

古いバージョンのExcelで折れ線グラフを描くと,何もしなければ背景が濃い灰色になり,グラフの線が見にくいのですが,これもデータ・インク比の低いグラフの典型例です。



8. カラーユニバーサルデザインを心がけよう ↑UP

何%かの人は,色をうまく識別できません。また,モノクロ印刷・コピーによって色の情報が失われることがあります。色の識別に依存したグラフは避けましょう。Excel2007では塗りつぶしパターンの設定ができなくなっていました(アドインで可能)。Excel 2010 で復活しています。



9. 箱ひげ図 ↑UP

今回の学習指導要領改訂で,中学の数学に統計分野が復活しました。高校でも必履修の数学 I に「データの分析」が入りましたが,その内容は四分位偏差,分散,標準偏差,散布図,相関係数などで,指導要領解説には四分位数・四分位範囲・箱ひげ図も言及されています(昔の指導要領の「資料」が「データ」,「相関図」が「散布図」と改められました)。平均は小学校算数5年(以前は6年),中央値は中学数学1年で学んでいます。

箱ひげ図は,統計学者テューキー(高速フーリエ変換のアルゴリズムや,2進法の桁を意味する「ビット」の命名でも知られています)が考案したものです[10]。彼は「探索的データ解析」の提唱で有名ですが,これはデータから平均値や標準偏差などの統計量を求めて満足するのではなく,データの一つ一つの値に謙虚になって耳を傾けることが第一歩とされています。そのためには全データをプロットするのが一番よいのですが,最小値,第1四分位数(25%点),中央値(50%点),第3四分位数(75%点),最大値の五数で要約することがあります。

箱ひげ図の描き方にはいろいろな流儀がありますが,簡単には,この五数を図10のように描きます。箱ひげ図は,いくつかのデータの分布を比較する際に便利です。

ところで図6はどう描くのがいいでしょうか。一つの方法として,箱ひげ図に似たもので最低・平均・最高気温をあらわし,それを帯広なら帯広で隣どうしに並べて,過去と最近の気温を比較することが考えられます。

図10 箱ひげ図
図10 箱ひげ図[10]


参考資料 ↑UP

[1] Microsoft Office(Excel)「利用可能なグラフの種類
http://office.microsoft.com/ja-jp/excel-help/HA001233737.aspx?CTT=3(2011年7月28日閲覧)

[2] 文部科学省「国際学力調査
http://www.mext.go.jp/a_menu/shotou/gakuryoku-chousa/sonota/07032813.htm

[3] 高木浩光「日常化するNHKの捏造棒グラフ
http://takagi-hiromitsu.jp/diary/20070128.html

[4] 高木浩光「NHKの棒グラフ描画システムが機械的に世論を狂わせている可能性
http://takagi-hiromitsu.jp/diary/20070204.html

[5] S.S.Stevens,“On the Theory of Scales of Measurement,”Science,Vol.103,pp.677?680(1946).

[6] 総務省統計局「平成18年社会生活基本調査
http://www.stat.go.jp/data/shakai/2006/gaiyou.htm

[7] William S.Cleveland, The Elements of Graphing Data,revised edition(Hobart Press,1994).

[8] Edward R.Tufte,The Visual Display of Quantitative Information(Graphics Press,1983).

[9] Edward R.Tufte,Beautiful Evidence(Graphics Press,2006).

[10] John W.Tukey,Exploratory Data Analysis(Addison-Wesley,1977).


©Daiichigakushusha