学生意識調査 2003

W1 記述統計

菅野剛

Push [Space] or [->]

Abstract

調査概要は学生調査2003
目的小さな手がかりから、大きな全体を把握。
到達目標 標本から母集団について推測するため、基本的な統計学用語が分かる。
キーワード 標本平均、標本分散、標準偏差、Z値（Zスコア, 標準化得点）
- データに含まれる多くの数値をただ眺めていても、理解は難しいです。そこで、平均とばらつきの二つの数字で、データの特徴を捉えます。データに含まれるそれぞれの数値も、平均とばらつきの視点から、分布における相対的な値に変換できます。こうして求めた Z値（Zスコア）は、後ほど、起こりやすさ（確率）という解釈につながり、便利です。

数式

\(\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\)
\(s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2\)
\(s=\sqrt{s^2}\)
\(z=\frac{x-\bar{x}}{s}\)

1. ケース、変数、尺度水準

1.1. 変数 variables

Q1. あなたの性別を教えてください。
1. 男性
2. 女性
Q1 は「性別」を尋ねる質問
Q1 は「性別」という変数 variable
- 変数：個人ごとに値が変わる
  - 男性だったり、女性だったり

1.2. 変数 variables

Q2. あなたの学年を教えてください。
1. 1年
2. 2年
3. 3年
4. 4年
Q2 は「学年」を尋ねる質問
Q2 は「学年」という変数 variable
- 変数：個人ごとに値が変わる
  - 1年だったり、2年だったり

1.3. ケース cases

回答やデータの単位を ケース という
社会調査では、回答者一人一人が ケース
1. ケース1：Aさんが、男性、2年と回答
2. ケース2：Bさんが、男性、4年と回答
3. ケース3：Cさんが、男性、2年と回答

1.4. ケース cases

野球チームの統計では、チームが ケース
1. ケース1：巨人の優勝回数は…
2. ケース2：阪神の優勝回数は…
都道府県別の統計では、県が ケース
国別の統計では、国が ケース

1.5. ケースと変数

表1: ケースと変数
	変数 1	変数 2	\(\cdots\)
ケース 1	1	2	\(\cdots\)
ケース 2	1	4	\(\cdots\)
ケース 3	1	2	\(\cdots\)
\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\vdots\)
ケース 153	1	3	\(\cdots\)

1.6. 変数とケース

表2: 変数とケース
	ケース 1	ケース 2	\(\cdots\)
変数 1	1	1	\(\cdots\)
変数 2	2	4	\(\cdots\)
変数 3	\(\vdots\)	\(\vdots\)	\(\cdots\)
\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\vdots\)

行と列が入れ替わって表示される場合もある
見栄えが違うだけで、データは同じ

1.7. 尺度水準 levels of measuremnt

変数の 尺度水準 によって、分析法が変わるので、重要
カテゴリカル変数 categorical variables
- 名義尺度 (nominal scale)
- 順序尺度 (ordinal scale)
量的変数 quantitative variables
- 間隔尺度 (interval scale)
- 比率尺度 (ratio scale)

違いの区分、順序がある、加減ができる、乗除ができる
社会調査では、 名義尺度 と 順序尺度 の変数が多い
- 順序尺度を間隔尺度とみなしての分析も多い

1.8. 量的変数の種類

量的変数 quantitative variables
- 離散変数 (discrete variable)
  - 整数の値をとる
- 連続変数 (continuous variable)
  - 小数の値もとる

1.9. 名義尺度 nominal

違いの区分のみの情報をもつ
- 順番に意味がない
- 代表値 は、 最頻値
Q1. あなたの性別を教えてください。
1. 男性 ←
2. 女性
Q1. あなたの性別を教えてください。
1. 女性
2. 男性 ←
男女に割り振る数値が逆でも、意味は変わらない
- 数値は、区分の違いのためだけに使われる
- 1.男性 + 2.女性 = 3. ?? という計算は無理
関西、関東といった地域区分など

1.10. 順序尺度 ordinal

順序に意味がある
- 順序を変えると、情報がおかしくなる
- 代表値 は、 中央値
Q2. あなたの学年を教えてください。
1. 1年
2. 2年
3. 3年
4. 4年
順序に加え、計算ができると 間隔尺度
- ただし、大学1年 + 大学3年 = 大学4年とはならない
- 年月は計算できるが、学年は、間隔尺度ではない
社会調査では、順序尺度を間隔尺度とみなす分析も多い

1.11. 間隔尺度 interval

順序に加え、足し算・引き算ができると 間隔尺度
- 代表値 は、 算術平均
よく紹介される例として、摂氏(C)や華氏(F)の温度
- 冬、10度
- 春、20度は、10度より10度高くなった
- 夏、30度は、20度より10度高くなった
0に意味があり、かけ算割り算ができると 比率尺度
- 温度 0度は人間が恣意的に割り振ったもの
- 10度の2倍が20度、という計算はできない

1.12. 比率尺度 ratio

0 に意味があり、かけ算割り算ができると 比率尺度
- 代表値 は、 算術平均 、 幾何平均 、 調和平均
- 絶対温度(K) は、絶対0度(熱振動停止)に意味がある
- 長さ、重さ、密度、時間、年齢、年収、来場者数
Q16. 睡眠について伺います。あなたは大体どのくらい寝ますか?
- 1日に平均____時間
Q24. 趣味や好きなことのために自由に使える、一ヶ月あたりのお金の金額はどのくらいですか?
- _______円ぐらい

2. データ・マトリクスと度数分布

2.1. データ・マトリクス data matrix

表3: 数値データ
	gender	grade	\(\cdots\)
1	1	2	\(\cdots\)
2	1	4	\(\cdots\)
3	1	2	\(\cdots\)
\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\vdots\)
153	1	3	\(\cdots\)

153人が 111 変数に回答、 153×111=16983 もの数字
回答者の ケース 1〜153 が、1行ずつ積み重なっている
変数が、q01 から順に1列ずつ 111 変数分並んでいる
膨大な数字を見ても意味不明
変数ごとに 代表値 や ばらつき を計算し特徴を把握

2.2. データのラベル化

表4: ラベル化
	性別	学年	\(\cdots\)
1	男性	2年	\(\cdots\)
2	男性	4年	\(\cdots\)
3	男性	2年	\(\cdots\)
\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\vdots\)
153	男性	3年	\(\cdots\)

153人の ケース が 111 変数に回答
ケース ごとに、変数の値が並ぶ
- ケース 1の回答者は、性別は男性で、学年は2年で …
- ケース 2の回答者は、性別は男性で、学年は4年で …
- ケース 3の回答者は、性別は男性で、学年は2年で …

3. グラフ、分布の形

3.1. 名義尺度 Gender 性別

nu03 データの Gender 性別

table(n03$Gender)
prop.table(table(n03$Gender))


男性 女性 
  91   62

     男性      女性 
0.5947712 0.4052288

addmargins(table(n03$Gender))
addmargins(prop.table(table(n03$Gender)))


男性 女性  Sum 
  91   62  153

     男性      女性       Sum 
0.5947712 0.4052288 1.0000000

3.2. 名義尺度 Gender 性別

pie(table(n03$Gender))

図1: Gender 性別の円グラフ

3.3. 名義尺度 Gender 性別

barplot(table(n03$Gender)

図2: Gender 性別の棒グラフ (度数)

3.4. 名義尺度 Gender 性別

barplot(prop.table(table(n03$Gender))

図3: Gender 性別の棒グラフ (割合)

3.5. 名義尺度 Gender 性別

Hmisc::describe(n03$Gender)

n03$Gender : 性別 
       n  missing distinct 
     153        0        2 
                          
Value         男性    女性
Frequency     91      62  
Proportion 0.595   0.405

3.6. 順序尺度 Q06 通学時間

Q06. 通学時間(片道)はどのくらいですか？
1. 30分未満
2. 30分〜1時間未満
3. 1時間〜1時間半未満
4. 1時間半〜2時間未満
5. 2時間以上

table(n03$q06)


 1  2  3  4  5 
29 38 42 31 13

3.7. 順序尺度 Q07a 本を読む

Q07. あなたは、以下の過ごし方をどの程度しますか？ a. 本を読む
1. ほぼ毎日
2. 最低一週1回
3. 最低一月1回
4. たまにする
5. しない

head(subset(n03, , c(Gender, Grade, Q07a)))

  Gender Grade       Q07a
1   男性   2年 たまにする
2   男性   4年   ほぼ毎日
3   男性   2年  最低月1回
4   男性   2年  最低週1回
5   女性   2年   ほぼ毎日
6   女性   2年  最低週1回

3.8. r07a の作成

数値 q07a から因子 Q07a を作成

n03$r07a <- NULL
n03$r07a <- 6 - n03$q07a
label(n03$r07a) <- "生活：本を読む"
describe(n03$r07a)

n03$r07a : 生活：本を読む 
       n  missing distinct     Info     Mean      Gmd 
     152        1        5    0.932    3.158     1.59 

lowest : 1 2 3 4 5, highest: 1 2 3 4 5
                                        
Value          1     2     3     4     5
Frequency     17    52    13    30    40
Proportion 0.112 0.342 0.086 0.197 0.263

3.9. 因子 Q07a の作成

n03$Q07a <- NULL
n03$Q07a <- ordered(
  factor(n03$q07a,
         levels = 1:5,
         labels = c("ほぼ毎日", "最低週1回", "最低月1回", "たまにする", "しない")))
label(n03$Q07a) <- "生活：本を読む"
table(n03$Q07a)


ほぼ毎日  最低週1回  最低月1回 たまにする     しない 
      40         30         13         52         17

3.10. 因子 Q07a の確認

head(n03$Q07a) # head() で最初の 6 オブザベーションを表示

生活：本を読む 
[1] たまにする ほぼ毎日   最低月1回  最低週1回  ほぼ毎日   最低週1回 
Levels: ほぼ毎日 < 最低週1回 < 最低月1回 < たまにする < しない

table(n03$Q07a)


ほぼ毎日  最低週1回  最低月1回 たまにする     しない 
      40         30         13         52         17

round(prop.table(table(n03$Q07a)), 2) # 割合を計算


ほぼ毎日  最低週1回  最低月1回 たまにする     しない 
    0.26       0.20       0.09       0.34       0.11

3.11. 因子 R07a の作成

n03$R07a <- NULL
n03$R07a <- ordered(
  factor(n03$r07a,
         levels = 1:5,
         labels = c("しない", "たまにする", "最低月1回", "最低週1回", "ほぼ毎日")))
label(n03$R07a) <- "生活：本を読む"
head(n03$R07a)

生活：本を読む 
[1] たまにする ほぼ毎日   最低月1回  最低週1回  ほぼ毎日   最低週1回 
Levels: しない < たまにする < 最低月1回 < 最低週1回 < ほぼ毎日

3.12. Q07a 本を読む円グラフ

pie(table(n03$Q07a))

図4: Q07a 本を読む円グラフ

3.13. Q07a 本を読む棒グラフ

barplot(table(n03$Q07a))

図5: Q07a 本を読む棒グラフ

3.14. 比率尺度 q16 睡眠時間

表5: データ
	Gender 性別	q16 睡眠時間	\(\cdots\)
1	男性		\(\cdots\)
2	男性	8	\(\cdots\)
3	男性	4	\(\cdots\)
\(\vdots\)	\(\vdots\)	\(\vdots\)	\(\vdots\)
153	男性	5	\(\cdots\)

3.15. 比率尺度 q16 睡眠時間

summary(n03$q16)

 Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
1.000   6.000   6.000   6.257   7.000  10.000       1

表6: nu03 データの q16 睡眠時間
統計量	英語	値
最小値	Minimum	1
第１四分位数	1st Quantile	6.000
中央値	Median	6.000
(算術)平均	Mean	6.257
第３四分位数	3rd Quantile	7.000
最大値	Maximum	10.000
欠測値	NA's	1

3.16. 比率尺度 q16 睡眠時間

Hmisc::describe(n03$q16)

n03$q16 : 睡眠時間 
       n  missing distinct     Info     Mean      Gmd      .05      .10      .25      .50      .75 
     152        1       10    0.906    6.257    1.293     4.55     5.00     6.00     6.00     7.00 
     .90      .95 
    8.00     8.00 

lowest :  1  2  3  4  5, highest:  6  7  8  9 10
                                                                      
Value          1     2     3     4     5     6     7     8     9    10
Frequency      1     1     2     4    22    64    38    16     2     2
Proportion 0.007 0.007 0.013 0.026 0.145 0.421 0.250 0.105 0.013 0.013

3.17. 比率尺度 q16 睡眠時間

hist(n03$q16)

図6: q16 睡眠時間ヒストグラム

3.18. 比率尺度 q16 睡眠時間

boxplot(n03$q16)

図7: q16 睡眠時間の箱ひげ図

3.19. 議論

q16 あなたは大体どのくらい寝ますか? 1日に平均____時間
- 睡眠時間で 1,2,3,3,4,4,4,4時間という回答
  - 実際に 1〜3時間かもしれない
  - 記入ミスや不正確な回答かもしれない
  - 外れ値として除外するか慎重に検討

4. 最頻値、中央値、平均

4.1. 最頻値 mode

最頻値・モード cf. (Mode)
名義尺度や順序尺度で最も頻度が大きな値カテゴリ

n03$Gender # データ名$変数名 として値を全て出力

性別 
  [1] 男性 男性 男性 男性 女性 女性 女性 男性 男性 男性 男性 男性 女性 男性 女性 女性 男性 男性 男性
 [20] 男性 男性 女性 女性 男性 男性 男性 男性 男性 男性 男性 男性 男性 男性 男性 女性 男性 男性 男性
 [39] 男性 女性 女性 女性 男性 女性 女性 男性 男性 男性 女性 女性 男性 男性 女性 女性 女性 女性 男性
 [58] 女性 女性 女性 女性 男性 女性 女性 女性 男性 男性 女性 女性 男性 女性 女性 男性 女性 女性 男性
 [77] 男性 男性 男性 女性 女性 男性 男性 男性 女性 男性 女性 男性 女性 女性 女性 女性 男性 男性 女性
 [96] 男性 男性 男性 女性 男性 男性 男性 男性 女性 男性 男性 女性 女性 女性 女性 男性 男性 男性 女性
[115] 男性 男性 女性 男性 男性 女性 男性 男性 女性 男性 男性 女性 女性 男性 女性 男性 男性 男性 男性
[134] 男性 男性 男性 女性 男性 男性 女性 男性 男性 女性 女性 男性 男性 女性 女性 男性 男性 女性 男性
[153] 男性
Levels: 男性 女性

table(n03$Gender) # table() 関数で度数分布を作成


男性 女性 
  91   62

この場合、 最頻値 は「男性」

4.2. 中央値 median

中央値・メディアン cf. (Median)
R では median()
順序尺度での 代表値

label(n03$q21a)
summary(n03$q21a)

[1] "ストレス：頻度"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   1.000   2.000   2.366   3.000   5.000

中央値 Median は 2

4.3. 平均 mean

総和記号 (シグマ) (summation) \(\sum\)
- R では sum()
平均 (エックス・バー) (mean) \(\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\)
- R では mean()

head(n03$q16) # head() 最初の 6 オブザーべションを表示

睡眠時間 
[1] NA  8  4  6  6  6

mean(n03$q16) # 欠測値 (NA) が含まれていると、計算不可

[1] NA

mean(n03$q16, na.rm = TRUE) # 欠測値 (NA) を除外 (ReMove) して、平均を計算

[1] 6.256579

平均睡眠時間は 6.25時間、6時間15分ほど

4.4. 外れ値

箱ひげ図で、四分位範囲の 1.5 倍以上離れている 外れ値 を確認

head(sort(n03$q16), 20)

睡眠時間 
 [1] 1 2 3 3 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5

4.5. 外れ値を探る

boxplot.stats(sort(n03$q16))

$stats
睡眠時間 
[1] 5 6 6 7 8

$n
[1] 152

$conf
[1] 5.871845 6.128155

$out
睡眠時間 
 [1]  1  2  3  3  4  4  4  4  9  9 10 10

4.6. 外れ値の除外

3時間以上を対象とした場合の平均睡眠時間

summary(subset(n03, n03$q16 >= 3, q16))

     q16       
Min.   : 3.00  
1st Qu.: 6.00  
Median : 6.00  
Mean   : 6.32  
3rd Qu.: 7.00  
Max.   :10.00

平均は 6.32 時間あたり

4.7. 刈り込み平均 trim

mean(n03$q16, trim = 0.1, na.rm = TRUE) # 欠測値を除外して計算

[1] 6.270492

6.27 時間 = 6時間 15分

5. 範囲(レンジ)、四分位範囲

5.1. 範囲(レンジ) range

範囲・レンジ (range)
ばらつきとして、 最大値 と 最小値 の幅
- ２つの数値だけから求まるので、計算が楽
- 裏返せば、豊富なデータから２つの情報しか使っていない
R では range() で min() と max() が表示される

range(n03$q16, na.rm = TRUE) # 欠測値を除外して計算

[1]  1 10

5.2. 四分位範囲 IQR

四分位数 (quartile points)
データを小さい値から大きな値へ並び替え
データを４等分すると、３つの区切りができる
1. 第１四分位数
2. 第２四分位数 = 中央値
3. 第３四分位数
四分位範囲 (IQR:interquartile range)
- ばらつきとして、 第３四分位数 - 第１四分位数 の幅
R では IQR()

summary(n03$q16)
IQR(n03$q16, na.rm = TRUE) # 欠測値を除外して計算

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  1.000   6.000   6.000   6.257   7.000  10.000       1
[1] 1

5.3. 箱ひげ図 boxplot

箱ひげ図・ボックスプロット cf. (boxplot)
四分位数 、 最大値 、 最小値 、 外れ値 をプロット
- 第１四分位数 と 第３四分位数 で、箱を描く
- ヒストグラム に比べ、分布の特徴を把握しやすい
R では boxplot()

図8: q16 睡眠時間の箱ひげ図

6. 分散、標準偏差

6.1. 分散 variance

データのすべての情報を考慮して、ばらつきを捉える
- 平均を中心として、個々のデータがばらついている度合い
不偏分散 (注: 除数がnの分散とは別) (unbiased variance) \(s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2\)
R では var()

var(n03$q16, na.rm = TRUE) # 欠測値を除外して計算

[1] 1.582738

6.2. 標準偏差 standard deviation

分散は、二乗した数値 (単位が面積) のため、ばらつきの大小がわかりにくい
- 分散の正の平方根をとる (単位が長さ) と、解釈しやすい数値に戻る
標準偏差 (注: 除数がnの標準偏差とは別) (standard deviation) \(s=\sqrt{s^2}\)
R では sd()
標準偏差 = 1.26
もし q16 睡眠時間が正規分布に従っている場合、
- 平均 6.3 ± 1 * 1.26 時間の範囲に約68％の人が該当
- 平均 6.3 ± 2 * 1.26 時間の範囲に約95％の人が該当

sd(n03$q16, na.rm = TRUE) # 欠測値を除外して計算

[1] 1.258069

7. Zスコア、標準化得点

7.1. Zスコア、標準化得点 Z-score

標準化 (standardization)
- 標準正規分布表で Z値をチェックすると、その範囲の起こりやすさが分かる
Z値, Zスコア, 標準化得点 (Z-score) \(z=\frac{x-\bar{x}}{s}\)
R では scale()

head(n03$q16) # 最初の 6オブザベーションの睡眠時間

睡眠時間 
[1] NA  8  4  6  6  6

head(scale(n03$q16)) # 最初の 6オブザベーションの睡眠時間の Zスコア

           [,1]
[1,]         NA
[2,]  1.3857912
[3,] -1.7936844
[4,] -0.2039466
[5,] -0.2039466
[6,] -0.2039466

8. info

8.1. 目的

目的統計学を学ぶ意義の理解。シラバスでは、簡略化した大らかな表現での説明となります。
- 2022年度から、高等学校で数学Ⅰ（必履修）に「仮説検定の考え方」、数学Bに「正規分布を用いた区間推定及び仮説検定の方法を理解すること」が導入されます。
- 総務省統計局社会人向け学習サイトデータサイエンス・スクール統計力向上サイト
  - やや優しめに設定されている、初級 -問題- / 中級 -問題- / 上級 -問題- がほぼ解けるか確認してください。
  - 初級 -テキスト- / 中級 -テキスト- の内容をある程度前提として、上級 -テキスト- 程度の内容を学んでいきます。

8.2. 中学・高校の関連教材

以降、用語のリンク先は 主に中学・高校の関連教材 です（総務省、掲載終了の場合は国立国会図書館「インターネット資料収集保存事業（Web Archiving Project）」）。

8.3. 到達目標

到達目標 統計学で学ぶ概要をイメージできる。統計学を学ぶ準備ができる。学びを積み重ねることができる。学びを習慣化できる。

8.4. 第1回概要

第1回概要
- 無作為抽出に基づく小さな標本から、大きな母集団について、推測します。見通しをよくするため、概要では焦点を絞ります。例えば、標本平均を手がかりとして、母平均（母集団の平均）を推定します。

8.5. 第2,3回記述統計

第2,3回記述統計
- 標本の特徴を、平均と不偏分散で捉えます(記述統計)。平均と分散が分かれば、データのそれぞれの数値を、相対的な値の Z値へ標準化できます。標準正規分布表で Z値から確率が判明することが重要です。

8.6. 第4,5回相関と回帰

第4,5回相関と回帰
- 変数同士の関連を調べると、関係の構造も浮かび上がります。標本の相関を手がかりとして、母集団の相関を推定できます。

8.7. 第6,7回確率

第6,7回確率
- ものごとの起こりやすさを数値で表し、推測統計学に向けて準備をします。

8.8. 第8,9回確率分布

第8,9回確率分布
- 確率を一覧にしたものが確率分布であり、ありふれたことと珍しいことを区別できます。自然でも社会でも、多くのことが正規分布に従っています。データの数値を平均と分散を用いて Z値へ標準化し、標準正規分布表を参照すると、対応する確率が分かります。ほとんどの場合 (確率 0.95)、 Z値は -2 から +2 の範囲に収まると予想できるのです。

8.9. 第10,11回標本分布

第10,11回標本分布
- 標本平均たちの分布を標本分布と呼び、正規分布に従います (中心極限定理)。つまり、母平均の側から見ると、ほとんどの場合(確率 0.95 )、母平均 -2 × 標準誤差から母平均 +2 × 標準誤差の範囲で、標本平均（確率変数）が得られると予想できます。（標準誤差は標本平均の標準偏差で \(\frac{\sigma}{\sqrt{n}}\) ）。

8.10. 第12,13回推定

第12,13回推定
- 逆に、標本平均の側から見てみます。ほとんどの場合(信頼度 0.95 )、標本平均 -2 × 標準誤差から標本平均 +2 × 標準誤差の範囲 (95％ 信頼区間) に、母平均（定数）があったものと推定できます (区間推定)。こうして、小さな標本から、大きな母集団について、推測ができました。二つの母平均の差の推定、二つの母比率の差の推定についても、考え方は同じです。

8.11. 第14,15回仮説の検定

第14,15回仮説の検定
- 母平均について帰無仮説を前提とした上で、 0.05 未満の確率で、極端に稀な値を示す Z値 (検定統計量Z)が生じた場合、帰無仮説を棄却し、対立仮説を採択します。二つの母平均の差の検定、二つの母比率の差の検定についても、考え方は同じです。母集団についての推定と検定や統計学的な考え方は、あらゆる分野の研究で必要不可欠です。

8.12. R や Python について

The R Project for Statistical Computing
R言語
Google Colaboratory で R を使う
参考　環境構築、ライブラリの紹介、参考文献・推薦図書・データセット(pdf) (R と Python の環境構築)
第７章　プログラミングの基本(pdf) (R と Python)

8.13. 用語統計学

母集団 cf. (population)
標本 cf. (sample)
確率 cf. (probability) \(P\{A\} = \frac{n(A)}{n}\)
無作為抽出 cf. (random sampling) sample()
記述統計 cf. (descriptive statistics)
推測統計 cf. (inferential statistics)
- 統計的推定 cf. (statistical estimation)
- 仮説検定 cf. (statistical hypothesis testing)

8.14. 用語探索的データ解析 (EDA: Exploratory Data Analysis)

度数分布表 cf. (frequency table) table()
最頻値・モード cf. (Mode)
ヒストグラム cf. (histogram) hist()
歪度 (わいど) (skewness) e1071::skewness()
尖度 (せんど) (kurtosis) e1071::kurtosis()
箱ひげ図・ボックスプロット cf. (boxplot) boxplot()
中央値・メディアン cf. (Median) median()
四分位数 (quartile points)
四分位範囲 (IQR:interquartile range) IQR()
範囲・レンジ (range) range() min() max()
要約統計量 (summary statistics) summary()
総和記号 (シグマ) (summation) \(\sum\) sum()
平均 (エックス・バー) (mean) \(\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\) mean()
不偏分散 (注: 除数がnの分散とは別) (unbiased variance) \(s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2\) var()
標準偏差 (注: 除数がnの標準偏差とは別) (standard deviation) \(s=\sqrt{s^2}\) sd()

9. 文献

[1]	ポール G.ホーエル. 初等統計学第4版. 培風館, 1981.

学生意識調査 2003

目次

Abstract

Abstract

数式

1. ケース、変数、尺度水準

1.1. 変数 variables

1.2. 変数 variables

1.3. ケース cases

1.4. ケース cases

1.5. ケースと変数

1.6. 変数とケース

1.7. 尺度水準 levels of measuremnt

1.8. 量的変数の種類

1.9. 名義尺度 nominal

1.10. 順序尺度 ordinal

1.11. 間隔尺度 interval

1.12. 比率尺度 ratio

2. データ・マトリクスと度数分布

2.1. データ・マトリクス data matrix

2.2. データのラベル化

3. グラフ、分布の形

3.1. 名義尺度 Gender 性別

3.2. 名義尺度 Gender 性別

3.3. 名義尺度 Gender 性別

3.4. 名義尺度 Gender 性別

3.5. 名義尺度 Gender 性別

3.6. 順序尺度 Q06 通学時間

3.7. 順序尺度 Q07a 本を読む

3.8. r07a の作成

3.9. 因子 Q07a の作成

3.10. 因子 Q07a の確認

3.11. 因子 R07a の作成

3.12. Q07a 本を読む 円グラフ

3.13. Q07a 本を読む 棒グラフ

3.14. 比率尺度 q16 睡眠時間

3.15. 比率尺度 q16 睡眠時間

3.16. 比率尺度 q16 睡眠時間

3.17. 比率尺度 q16 睡眠時間

3.18. 比率尺度 q16 睡眠時間

3.19. 議論

4. 最頻値、中央値、平均

4.1. 最頻値 mode

4.2. 中央値 median

4.3. 平均 mean

4.4. 外れ値

4.5. 外れ値を探る

4.6. 外れ値の除外

4.7. 刈り込み平均 trim

5. 範囲(レンジ)、四分位範囲

5.1. 範囲(レンジ) range

5.2. 四分位範囲 IQR

5.3. 箱ひげ図 boxplot

6. 分散、標準偏差

6.1. 分散 variance

6.2. 標準偏差 standard deviation

7. Zスコア、標準化得点

7.1. Zスコア、標準化得点 Z-score

8. info

8.1. 目的

8.2. 中学・高校の関連教材

8.3. 到達目標

8.4. 第1回 概要

8.5. 第2,3回 記述統計

8.6. 第4,5回 相関と回帰

8.7. 第6,7回 確率

8.8. 第8,9回 確率分布

8.9. 第10,11回 標本分布

8.10. 第12,13回 推定

8.11. 第14,15回 仮説の検定

8.12. R や Python について

8.13. 用語 統計学

8.14. 用語 探索的データ解析 (EDA: Exploratory Data Analysis)

9. 文献

3.12. Q07a 本を読む円グラフ

3.13. Q07a 本を読む棒グラフ

8.4. 第1回概要

8.5. 第2,3回記述統計

8.6. 第4,5回相関と回帰

8.7. 第6,7回確率

8.8. 第8,9回確率分布

8.9. 第10,11回標本分布

8.10. 第12,13回推定

8.11. 第14,15回仮説の検定

8.13. 用語統計学

8.14. 用語探索的データ解析 (EDA: Exploratory Data Analysis)