I. 데이터의 직관적인 분포, 박스 플롯의 개념
- 자료들의 최대값과 최소값, 중앙값, 사분위수 등을 이용하여 자료의 측정값들이 어떤 모양으로 분포되어 있으며, 이상치 등을 쉽게 파악할 수 있는 도표
II. 박스플롯의 구성도 및 설명
가. 박스플롯의 구성도 및 용어
용어 | 설명 | |
사분위 | 자료를 작은 값으로부터 4등분 | |
IQR | 1사분위와 3사분위의 차이 | |
Outlier | Max와 Min 범위를 벗어나는 값 | |
최대값 | 1사분위에서 1.5 IQR을 뺀 것 | |
최소값 | 3사분위에서 1.5 IQR을 더한 것 | |
중간값 | 2사분위수로 중간값 | |
평균값 | 전체 자료의 평균으로 (+)로 표기 |
나. 박스플롯의 작성 절차
절차 | 설명 |
사분위 계산 | 데이터의 사분위수를 계산 |
박스 생성 | 1사분위수와 3사분위수를 이용하여 박스를 생성. 박스의 길이는 IQR임 |
중간값 표기 | 2사분위수에 해당하는 위치에 선을 그림 |
최대값 및 최소값 표기 | 3사분위수에서 1.5IQR을 더한 위치와, 1사분위수에서 1.5IQR을 뺀 위치 |
이상값 표기 | 최대값 및 최소값의 범위를 넘어가는 자료는 기호로 표시 |
- 박스플롯 이용시 데이터의 분포를 쉽게 확인가능
'ITPE > 인공지능_데이터분석' 카테고리의 다른 글
혼동 행렬(confusion matrix)을 이용한 분류 모형의 평가지표 (0) | 2021.04.09 |
---|---|
LSTM (0) | 2021.04.09 |