본문 바로가기
데이터 공부/데이터 시각화

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습

by 으잇짜 2024. 8. 27.
반응형

1. Box plot 만들기

 

2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선

 

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선

1. 데이터 추출산점도 데이터 시각화에서는 가장 많이 사용하는 bmi 데이터셋을 가지고 해 보겠습니다.임의로 chat GPT에게 1000명의 bmi 데이터를 만들어달라고 요청했습니다. 2. 산점도 만들기 (키

informyun.com

 

2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot이란?(실습데이터 추가)

 

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot이란?(실습데이터 추가)

1. Box plot의 구성 요소상자(Box)중앙값(Median): 상자의 내부에 있는 가로선으로, 데이터의 중앙값을 나타냅니다. 데이터셋을 정렬했을 때 전체 값의 중간에 위치한 값입니다.1 사분위수(Q1): 상자의

informyun.com

 

 

데이터는 이전 포스팅 첨부파일에 있던 bmi 데이터를 활용해서 만들어 보겠습니다.

bmi 데이터로 box plot 차트를 생성하면 기본적으로 아래와 같이 생성되는 모습을 확인할 수 있습니다.

bmi data box plot
bmi data box plot

2. appearance 속성 살펴보기

 

Box plot에 다양한 속성이 있지만, 그중에서 appearance/Reference Points/Statistice Table 이 3가지를 살펴보겠습니다. 먼저 Appearance에 있는 "show distribution"부터 알아보겠습니다.

 

Appearance Setting
Appearance Setting

 

 

속성에서 Show distribution을 활성화시키면 아래와 같이

box plot에  히스토그램 차트가 활성화 되어 분포를 확인할 수 있습니다.

Show distribution
Show distribution

 

속성에서 Comparison Circles를 활성화 시키면 box plot 옆에 공간이 생기면서 각 Colume에 해당하는 원이 생성됩니다.

원의 중심은 각 집단의 중앙값, 원의 크기는 산포를 의미

원이 가까울수록 통계적으로 유사하다는 지표로서 사용가능

 

Tukey-Kramer 방법으로 계산되며, Anova에서 유용하게 사용

자세한 내용은 아래 Spotfire 홈페이지 참고

 

α-level은 0부터 1 사이 값으로 설정 가능

1에 가깝게 설정할수록 그룹 간 차이를 더 크게 생성.

comparision Circle
comparision Circle

 

https://docs.tibco.com/pub/spotfire/6.5.0/doc/html/box/box_comparison_circles_algorithm_.htm

 

Comparison Circles Algorithm

Comparison Circles Algorithm Comparison Circles Algorithm The drawing of comparison circles is a way to display whether or not the group means for all pairs are significantly different from each other. The Tukey-Kramer method is used for the calculatio

docs.tibco.com

 

3. Reference Points 살펴보기

 

Box plot에서는 다양한 Reference Points를 제공하고 있습니다. 각 통계량은 Marker 또는 Line으로 표시 가능합니다.

이 중 많이 사용하는 몇 가지 요소들에 대해 알아보겠습니다.

Reference Points
Reference Points

box plot 생성 시 중앙값인 Median은 기본적으로 들어가 있습니다. 여기에 AVG(산술평균)을 별 모양 Marker로 추가했습니다. 또한 box plot의 whisker(수염) 끝 부분인 UAV/LAV를 직선 형태로 넣었으며, 데이터 이상값을 나누는 기준인 UIF/LIF는 는 점선 형태로 box plot에 표시했습니다.

자주 사용하는 Reference Points
자주 사용하는 Reference Points

 

Box plot Reference datas
Box plot Reference datas

 

 

4. Statistics Table 살펴보기


Box plot 생성 시 기본적인 통계량에 대한 Table이 아래 삽입됩니다.

이 Table을 Statistice Table 설정에서 세팅할 수 있습니다.

 

또한 Table에서 자체적으로 내림/오림 차순을 할 수 있어, 정렬하기에 용이합니다.

 

Box plot Statistics Table
Box plot Statistics Table

 

Statistics Setting
각요소별로 내림/오름 차순 정렬 가능
각요소별로 내림/오름 차순 정렬 가능

반응형

loading