資料の分析

このページは書きかけのページになります!

資料の分析

中学校や高校で学ぶ数学、実際使う場面の多い人とそうでない人がはっきり分かれます。
とは言え勉強は別にその学問を使えるようにする目的だけではないと私は信じています。
だから使わないから意味が無い、と思っている子はちょっと考えが浅いかな・・・。

そして世の中に出て使う可能性が高いのはこの資料の分析に始まるデータを分析する事に関する単元です。
用語を覚えるだけでは、実際にデータを使うときに、正しく読み取ることが出来ないでしょう。
その数値が、与えられたデータのどういう性質を物語っているのか、それを理解しておく必要があります。

前置きが長くなりましたが、この単元、入試前にはすっかり忘れ去られています。
「相対度数・・・なんだっけ?」
今の高校生の多くの方がそう思った事でしょう。
大人の多くの方は、既にそんなことを思った事すら忘れているでしょう。

資料の分析

扱うデータの個数が100万個のデータがある場合、1個1個見ていたら日が暮れてしまいます。
このように大量のデータがある場合に、そのデータがどのような性質を持っているのかを知るための単元がこの資料の分析です。

一個一個の数値が大切なわけではありません。
データ全体で見たときに、そのデータの特徴を捉えるための手法です。
もちろん一個一個のデータ自体は、それぞれの人に関する重要な数値である可能性はありますが・・・。

度数分布表

まずは度数分布表という、データを整理した表から見ていきましょう。
階級とはデータを特定の幅毎に分類した、その幅の事を言います。
階級に対し、その真ん中の値を階級値と言います。
データを全て階級内に収めてしまったわけですから、その階級を表す値としては真ん中の値を使いたいですよね。
だから階級値という各階級の真ん中の値に名前がついています。

度数とはデータを階級に分類した際に該当したデータの個数の事を言います。
度数が大きいほど、その階級に該当するデータが多いということを意味しています。
しかし、100個のデータで50個該当する階級と、100000個のデータで50個該当する階級では、その意味あいは変わってしまいますよね?
そのため、この度数だけでは余りデータの特徴を掴むことが出来ません。

そこで登場するのが相対度数です。
相対度数とは度数が全体のどれくらいの割合であるかを示す数値の事を言います。
要は割合の事です。
通常0から1までの数で表し、100を掛ければ%、10を掛ければ割分厘、になります。
割合ですから、各階級の相対度数の和を求めると1になります。
相対度数が0.5の階級は、データの半分が集まっているわけですから特徴的ですね。
逆に相対度数が0.1の階級は、せいぜい10分の1程度のデータしか存在しないわけです。
まあそれがすごいという事もしばしばありますが、それはデータの分析をどう行っているか次第ですね。

階級を横軸に、度数を縦軸に表した柱状のグラフをヒストグラムと言います。
基本的には度数分布表の劣化情報ですが、視覚的にわかりやすくなるので使われます。

代表値

データを階級ごとに分けた度数分布表も、データの偏りなどが分かりやすくなっています。
このほかにデータを特色付ける「代表値」というたぐいの指標値があります。

平均値

小学校でも習っているので馴染みのある数値です。
データの合計値をデータの個数で割り算したものが平均値です。
二つの値の平均値までは皆さんよく覚えているのですが、三つ以上になると計算できない子が多いですね・・・。
式を無理やり覚える教育では身に付かないのでしょう。

平均値は「割り勘」で覚えると良いと思います。
皆で中華料理などをシェアして食事をしたとき、同じ金額を払う場合どうしたら良いでしょうか?
合計金額が10000円、人数が5人なら、一人2000円ですよね?
だから、合計を計算し、データの個数で割るんです。

平均値とはデータが皆その値だったら、元のデータの合計値になる値、とも言えます。

中央値

データの「ど真ん中」の数値です。
ただし、真ん中の数値と言っても、次のような値ではありません。
0,5,15,20,40→0~40の真ん中の20だ・・・!×
5つの数の真ん中、3番目の15、これが中央値です。
大きい、あるいは小さい順に並べて真ん中の数が中央値になります。
もしデータが偶数2n個の場合、n番目とn+1番目の平均値になります。

最頻値

最も頻度の高い値、そのまんまの意味の数値です。
高いという言葉は出てきませんが、高い頻度のデータを答えるのが最頻値です。
3,5,5,5,10であれば最頻値は3回出ている5です。

度数分布表と代表値

資料の分析では「データには大体このような特徴がある」という事を知るための単元でしたね。
資料の代表値を毎回すべてのデータから求めていると大変です。
度数分布表の様に集計(サマリー)したもの(サマッたもの)を扱った方が簡単です。
その時データの細かな値は失われています。
階級が5~10のデータの度数が10の場合、このデータの合計は最小で5が10個の50、最大で10(正しくは10は次の階級でしょうが)が10個の100となります。
階級値の7.5を用いた場合、75となります。
ブレ幅の真ん中ですから、都合が良いですよね。

と言う事で、度数分布表から代表値を求める場合は、階級値を使って求めます。

これをいずれ頑張るマン的に解説します。

問題演習