본문 바로가기
데이터 공부/통계 공부

[통계공부] 1. 변량,도수,도수분포표,상대도수,히스토그램

by 으잇짜 2023. 10. 22.
반응형

1. 변량 (Variable):

 

변량은 연구나 관찰 대상에서 관심을 가지는 속성 또는 특성을 나타냅니다. 예를 들어, 학생들의 키, 나이, 성적 등은 모두 변량입니다. 이러한 변량은 데이터 분석의 기반을 형성합니다.

 

아래 100명의 학생들의 임의의 점수를 통해 학습해보겠습니다.

 

해당 포스팅의 공부 내용 및 자료는 하단에 첨부해 놓았습니다.

통계학습에서 사용된 "변량" 입니다.
변량 (100명 학생의 성적)

2. 도수 (Frequency):

 

도수는 특정 구간 또는 범주 내에 발생한 관찰값의 수를 나타냅니다. 도수는 데이터의 분포를 이해하고 시각화하기 위한 핵심 개념입니다.

 

아래 표는 위 변량을 일정한 계급으로 나누어 표로 나타낸 것입니다. 이를 도수분포표 라고 칭합니다. 각 계급은 0점부터 100점까지를 10개의 계급으로 나눈것입니다. 여기서 계급의 크기 즉 계급의 간격은 "계급의 큰 값 - 계급의 작은 값" 으로 나타내며, 해당 도수분포표에서 계급의 크기는 "10" 입니다.

 

도수분포표와 각 항목별 설명입니다.
항목에는 계급, 도수, 상대도수, 계급의크기 가 있습니다.
도수분포표와 각 항목별 설명

3. 도수분포표 (Frequency Distribution Table)

 

도수분포표는 변량의 각 값에 대한 도수와 상대도수를 나타내는 표입니다. 이를 통해 데이터의 패턴을 한눈에 파악할 수 있습니다.

 

해당 도수분포표와 시각화를 통해 70점이상 80점 미만 계급에 총 27명의 학생이 집중되어 있는 것을 확인 할 수 있습니다.

 

 

4. 상대도수 (Relative Frequency)

 

상대도수는 특정 도수를 전체 도수로 나눈 비율을 나타냅니다. 이것은 데이터의 상대적 분포를 파악하는 데 도움이 됩니다.

 

해당 예제에서 70점이상 80점 미만 계급에 속해있는 도수는 27(명) 이며, 전체도수 (전첵 학생수)는 100명이므로 둘을 나누어 상대도수를 구하면 27/100=0.27 이라는 값이 나오게됩니다.

 

아래는 상대도수를 사용하는 이유입니다.

 

1. 비교 용이성

상대도수는 서로 다른 데이터 집단 또는 범주 간에 상대적 크기를 쉽게 비교할 수 있도록 도와줍니다. 도수 분포표의 경우, 도수 자체는 절대적인 수치이지만, 상대도수는 백분율로 표현되어 데이터 집단 간의 상대적 비교를 용이하게 합니다.

 

2. 데이터 시각화

상대도수는 그래프나 차트에서 사용하기에 편리합니다. 히스토그램, 막대 그래프, 원 그래프 등에서 상대도수를 사용하면 각 범주의 상대적 크기를 더 쉽게 비교할 수 있습니다. 이로써 데이터 분포의 모양과 특징을 시각적으로 파악하기 용이해집니다.

 

3. 정규화

상대도수는 데이터 집합의 크기에 상관없이 상대적 비율을 나타냅니다. 이는 서로 다른 크기의 데이터 집합을 비교하거나 동일한 데이터 집합의 다른 부분 간의 비교에 유용합니다.

 

4. 통계 통찰력

상대도수를 사용하면 데이터의 특성을 빠르게 이해할 수 있습니다. 특정 범주가 전체 데이터에서 차지하는 상대적 중요성을 파악하고, 이를 통계적 패턴 및 트렌드를 식별하는 데 활용할 수 있습니다.

5. 데이터 분석과 의사결정

상대도수는 데이터 분석 및 의사결정 프로세스에 유용한 정보를 제공합니다. 특정 범주의 상대도수가 높을 때, 해당 범주에 대한 중요성이 강조될 수 있고, 이를 통해 의사결정을 내릴 때 중요한 기준으로 활용됩니다.

 

5. 히스토그램 (Histogram)

 

히스토그램은 데이터의 도수분포를 시각화한 그래프로, 가로축에는 변량의 범주 또는 구간을, 세로축에는 도수를 표시합니다. 히스토그램은 데이터의 분포와 모양을 쉽게 이해할 수 있게 해줍니다.

 

이렇듯 히스토그램이라는 시각화를 통해 도수분포표보다 비교적 쉽게 직관적으로 결과값을 볼 수 있습니다.

 

아래, 파레토 차트는 히스토그램 차트에서 각 계급별 도수 가 많은 순으로 정렬 한 것입니다. 70점 이상 80점 미만의 계급에 가장 많은 도수(학생수) 가 분포하기 때문에 가장 앞에 있게 됩니다. 보통 파레토 차트는 품질 관리 및 품질 향상의 도구로 사용됩니다. 

 

위에 있는 도수분포표를 히스토그램으로 나타낸 그림입니다.
히스토그램 차트

 

위 히스토그램을 파레토차트 형식으로 나타낸 그림입니다.
파레토 차트

 

 

 


 

변량, 도수, 도수분포표, 히스토그램.xlsx
0.02MB
변량, 도수, 도수분포, 히스토그램.pptx
0.07MB

반응형

loading