生活の知恵があつまる情報サイト

nanapi

Icon learn語学・学習

  1.  
  2.  
  3.  
  4.  
  5. 統計学の基礎中の基礎! データの散らばりと代表値の学び方

統計学の基礎中の基礎! データの散らばりと代表値の学び方

2013年10月29日更新

 views

お気に入り

はじめに

最近何かと「ビックデータ」の分析が話題になっていますが、筆者はこの言葉にある種の危険性を感じています。というのは一般の人々はこの言葉に「目新しさ」と「蓄積された大量のデータに高度な分析をすればものすごく高度なことが分かるに違いない」ということを素朴に感じていると思いますが、それはある意味幻想に過ぎないと感じているからです。

昔から大量データの分析ということが、その時々のトレンドにそって話題になってきましたが、そう簡単には意味あるデータ分析はできません。

その意味で、データ分析の基礎である統計学をきちんと学ぶことは大事ですし、統計学の基礎である「記述統計学」をまず学ぶことが大事です。その「記述統計学」の入口が、中学数学で習う「データの散らばりと代表値」(資料の散らばりと代表値)になります。

データの散らばりと代表値の学び方

度数分布表を作成

下のデータは、ある開店したばかりのスーパーにおいて1ヶ月間に売れた男性用靴のサイズ一覧です。

次の月に販売する靴を発注するにあたって、前の月のデータに基づいて靴のサイズの発注の割合を決めたいと思います。どのようにしたら、簡単に分かりやすく靴のサイズの発注割合を決められますでしょうか。

このままのデータだと、どのサイズの靴がいくつあるかということが分からないので、靴のサイズごとに個数を数えて表にしてみることにします。その表が度数分布表になります。

通常はデータを等間隔の幅で区切って(これを階級と呼びます)、階級ごとの個数(度数)を数えます。ここでは分かりやすくするために靴のサイズごとの表にしました。

最初のデータの塊に比べて、度数分布表はデータの傾向が一目で分かります。
しかし、この表をあるグラフにすれば、もっとデータの傾向を直感的に分かりやすくすることができます。

度数分布表からヒストグラムを作成

この表が、ヒストグラムと呼ばれるグラフです。縦軸に度数(販売個数)、横軸に階級(靴のサイズ)を取っています。

棒グラフとどこが違いますでしょうか。靴のサイズごとの棒と棒の間に隙間がありません。これはデータが隙間なく、つながっていて、すべてのデータ(ここでは靴のサイズ)を網羅していることを示しています。

ヒストグラムを確認することのメリットは、データの散らばり具合(データの分布)を直感的に確認でき、もし異常なデータがあった場合、一目でそれを確認できることです。単純な作業ですがどんな高度な分析をする場合でも、まずヒストグラムでデータの分布状況を確認することがデータ分析の始めの一歩になります。

分布の代表値

ヒストグラムでデータ分布状況を直感的に確認した後で、次にデータ分析で行う作業はデータの傾向(データの分布状況)を表現する数値データを抽出することです。その数値データを分布の代表値といいます。

上のヒストグラムをもう一度見てみましょう。データの分布状況を数値で表現するためにどのような種類の数字が必要でしょうか。ヒストグラムは山のような形をしています。データの中心的な部分の高さと、山の裾野の広さを表現できる数値があればデータの分布の状態を表現できそうです。

データの中心的傾向の代表値には以下のものがあります。

  • 平均(算術平均、ミーン):データの総和をデータ数で割った値
  • 中央値(メディアン):データを大きさの順に並べ変えた時の中央にある値
  • 最頻値(モード):最大度数の階級の値(代表値)

上の度数分布表をもとに、算術平均値、中央値、最頻値をもとめてみましょう。

最頻値は、最大度数の階級の値ですので、度数分布表をみれば一目瞭然で25.5です。

中央値は、データを小さい順に並べた時に、真中の位置にあるデータ値です。データの個数が偶数の時は、真中にある2つのデータの値の平均値(算術平均)をとります。上のデータの場合、データ個数が100ですので、真中のデータは50番目と51番目です。度数分布表を見てみると、50番目と51番目のデータは、25.5ですので、中央値も25.5となります。

平均値(算術平均値)は、順番に度数分布表の階級の値と度数を掛けてゆき、その値の合計をデータの個数で割れば算出されます。

上の度数分布表の場合、

( 24.5×6 + 25×30 + 25.5×35 + 26×19 + 26.5×8 + 27×2 ) ÷ 100 = 25.495となります。

平均値も25.5みなして問題ありません。

データの拡がり(データの散らばり具合)を表す代表値は以下のものがあります。

  • 範囲(レンジ):(データの最大値)-(データの最小値)
  • 分散
  • 標準偏差
中学生向けなので分散と標準偏差の説明はここでは省略します

用語の背景にある本質的意味を理解しよう

統計学を学ぶときに大事なのは、一つの一つの用語の意味と使い方を教科書的に覚えるのことではなく、その背景にある本質的意味をしっかり理解することです。

例えば、最初からきれいにまとめられたデータを手順にしたがってさらにデータを集約し、度数分布表をつくりそこからヒストグラムを作るということを覚えても、何の役にもたちません。「度数分布表やヒストグラムはなぜ必要なのか」、「度数分布表やヒストグラムを使うメリットは何なのか」を理解することが大事なのです。

データを扱うときの注意点

データの代表値を考えるうえで忘れてならないのは、データの分布状況やデータの尺度(数字の持っている特性)によって、平均値は必ずしも適切な代表値ではないということです。

先ほどのヒストグラムを見てください。データが平均を中心として左右対称の釣り鐘型分布(正規分布)に近い分布をしていないと、平均値を算出する意味がありません。

平均は極端な値の影響を受けやすいからです。その場合、データの中心的傾向を表す代表値として、中央値を用います。(先のヒストグラムは正規分布に近いので、平均値と中央値はほぼ同値となり、代表値として平均値を用いても問題ありません。)

テレビなどのマスコミには平均値があふれていますが、実は平均値を用いてはいけないケースが多く、分布の代表値として中央値を用いたほうが良い場合が多いことに留意しましょう。

また平均値と書く時に、わざわざ算術平均と併記していたのには理由があります。実は平均値にもいろいろあるのです。代表的なものには幾何平均、調和平均、トリム平均、加重平均等があります。(特に加重平均の誤用が目立ちます) 実は平均値はかなり注意して扱わないといけないものなのです。

おわりに

マスコミで「ビックデータ」分析が盛んに喧伝され、平均、パーセント、相関、標本調査といった統計用語が世の中にあふれています。しかしその中には、誤用や誤解を招くものが数多く含まれています。

そういった嘘を見抜くためにも、統計学をきちんと学びましょう。統計学の無知につけこんだ騙しの事例集として、統計学の古典的名著「統計で嘘をつく法」(ダレル・ハフ著)を一読することをお勧めします。

(image by 著者)

この記事で使われている画像一覧

  • 20130725045334 51f030bec620b
  • 20130725022523 51f00e03659da
  • 20130725030803 51f0180315e4c
  • 20130725031405 51f0196db4c8e

本記事は、2013年10月29日時点の情報です。記事内容の実施は、ご自身の責任のもと安全性・有用性を考慮してご利用いただくようお願い致します。

編集部ピックアップ

期間限定のPRコンテンツをチェック!

もっと見る