▼ 第06回 データの整理(1)
■ データの整理
データがどのような特徴を持っているかを知るには、データの整理から始める。データを大きい順に並べ替え(Sort)たり、クラス(階級)に分類し、表やグラフなどを作成する。グラフの形状をもとにデータの分布状況を知ることは大切なことである。
□例題06-01:データの整理 |
難易度:★★ |
目安時間:10分 |
例題集 |
例題データをシートにコピーし、次の値を標準関数を使って求める。
- データの総数
- 最大値
- 最小値
- 20番目に大きな値
- 40番目に小さな値
|
■ 度数分布表
学校の成績を5点きざみに人数を数えて作成された得点分布表を見たことがあると思う。この分布を示す表を度数分布表という。数値の広がりや重なり具合を直観的に理解するのに向いている。
度数分布表の作り方で注意すべきことは、以下の通り。
- 階級数を10〜20に設定する。(多すぎたり少なすぎたりすると分布状況がわからなくなる。そこで適切な階級数を導くためにStarjesの公式がある。=1+3.3×log n )
- 階級の間隔は統一する。
- 同じデータが2つの階級に入らないようにする。
- データ数と各階級の度数の合計が一致することを確認する。
■ 度数分布表の作成
度数分布表の作成には、以下のような2通りの方法がある。
【方法1】 累積度数の関数(=FREQUENCY)
Excelの累積度数を求める関数を利用する。この方法は、データが新たに追加された場合にでも対応できる点が便利である。ただし、配列を使わなくてはならないことに注意する。手順は以下のとおり。
- データ区間である階級上限値のリストを作る。
- 隣の列(頻度)の列をアクティブにする。
- アクティブの状態で、セルに =FREQUENCY(データ範囲, 区間)を入力する。
- 入力後、[Ctrl]+[Shift]キーを押しながら[Enter]を押す。(配列の入力方法)【度数分布表の完成】
- 合計を確認する(全データ数と一致するかを合計して確認する。)
上限 | 頻度 |
10 | =FREQUENCY(データ配列,区間配列) |
20 | 入力後は、以下のようになる。 |
30 |
... |
... |
80 |
90 |
100 | {=FREQUENCY(データ配列,区間配列)} |
合計 | =SUM(範囲) |
配列は複数のセルをひとつのまとまりとして扱うので、配列指定されている1個のセルデータのみを変更することはできない。(削除する場合も、配列全体を指定する。) 変更を試みてエラーが表示された場合、[Esc]キーで解除する。
□例題06-02:標準関数による作成 |
難易度:★★ |
目安時間:30分 |
例題集 |
例題6-1のデータについて、標準関数を用いて度数分布表を作成する。 |
【方法2】 分析ツール
分析ツールがない場合は、次の処理をする。
- データ区間である階級上限値のリストを作る。
- メニュー[ツール(T)]→[分析ツール(D)...]を選択。
- 分析ツールメニューから[ヒストグラム]を選択。
- [入力範囲(I)]:データ、[データ区間(B)]:階級上限値のリストを入力。
- [ラベル(L)]のある場合は忘れずにチェックをする。
- [出力先(O)]を指定する。【度数分布表の完成】
データ区間 | 頻度 |
0 | ? |
10 | ? |
20 | ? |
30 | ? |
40 | ? |
50 | ? |
60 | ? |
70 | ? |
80 | ? |
90 | ? |
次の級 | ? |
- [累積度数分布]や[グラフ作成]のオプションは必要に応じて使う。
- 分析ツールでのデータ区間は、下限値をとっていることに注意する。
□例題06-03:分析ツールによる作成 |
難易度:★★ |
目安時間:10分 |
例題集 |
例題6-1のデータについて、分析ツールを用いて度数分布表を作成する。Frequency関数を利用した場合と分析ツールの場合は、何が異なるかを考える。 |
元データを変えてみると、6-2、6-3どちらの表が変化するかが分かる。
|
▼ 第07回 データの整理(2)
■ ヒストグラム
度数分布表をもとに柱状(棒)グラフ化したものが、ヒストグラムである。(Excelにある[分析ツール] → [ヒストグラム]の出力結果の意味とは異なっているので注意。)縦軸が度数、横軸が各階級幅であり、ヒストグラムの特徴は、各階級の柱の面積が級度数を正確に反映していることがあげられる。
一方、データ数が多く階級幅が細かいときに折れ線グラフを用いるとデータが連続してよくわかる。
■ ヒストグラムの作成方法
方法1で作成した場合にはグラフの作成方法で棒グラフを選べばよい。階級値を横(x)軸に頻度を縦(y)軸にして棒グラフを書くことに注意する。 方法2では、オプションのグラフ作成ボタンをチェックすることで自動作成できる。
□例題07-01:ヒストグラム |
難易度:★★ |
目安時間:20分 |
例題集 |
例題6-2で作成した度数分布表を元にヒストグラムを描く。
例題6-3では、[グラフ作成]のオプションを使う。
|
■ 累積度数
階級の下から順に度数を足せば、その階級までの累積値が得られる(累積度数)。これをもとにグラフ化すると累積度数分布表が得られる。最後の階級値の度数は全データ数と一致する。 累積度数の計算方法は、=FREQUENCY(データ,上限)を各セルに入力すればよい。ここでは、配列を使っていないことに注意する。
上限 | 累積度数 |
0 | =FREQUENCY(データ,上限) |
10 | =FREQUENCY(データ,上限) |
20 | =FREQUENCY(データ,上限) |
... | ... |
... | ... |
80 | =FREQUENCY(データ,上限) |
90 | =FREQUENCY(データ,上限) |
100 | =FREQUENCY(データ,上限) |
□例題07-02:累積度数分布表 |
難易度:★★ |
目安時間:20分 |
例題集 |
例題データから累積度数分布表を作成し、そのグラフを描く。最後の階級が全体のデータ数と一致しているかどうかを確認する。 |
■ 相対度数
相対度数とは、ある級の度数が全体の何パーセントであるかを示したものである。計算方法は、各階級の度数を全標本数で割ることで求められるので、これらをパーセンテージ(%)で表す。なお、すべての相対度数の和は1であるので、縦(y)軸は1以下に設定すればよい。
□例題07-03:相対度数分布表 |
難易度:★★ |
目安時間:20分 |
例題集 |
例題データから相対度数分布表を作成する。各階級の総和が1となっているかどうかを確認する。 |
■ 累積相対度数
累積度数を上述の相対度数で行うと累積相対度数分布表が得られる。最後の階級値の値は全部の合計であるから1となる。
□例題07-04:累積相対度数分布表 |
難易度:★★ |
目安時間:20分 |
例題集 |
例題データから累積相対度数分布表を作成する。上の例題の相対度数と累積相対度数を同じグラフを描く。 |
last modified :2005.11.05
|