I. 데이터의 직관적인 분포, 박스 플롯의 개념
- 자료들의 최대값과 최소값, 중앙값, 사분위수 등을 이용하여 자료의 측정값들이 어떤 모양으로 분포되어 있으며, 이상치 등을 쉽게 파악할 수 있는 도표

 

II. 박스플롯의 구성도 및 설명

. 박스플롯의 구성도 및 용어

용어 설명
사분위 자료를 작은 값으로부터 4등분
IQR 1사분위와 3사분위의 차이
Outlier MaxMin 범위를 벗어나는 값
최대값 1사분위에서 1.5 IQR을 뺀 것
최소값 3사분위에서 1.5 IQR을 더한 것
중간값 2사분위수로 중간값
평균값 전체 자료의 평균으로 (+)로 표기

 

 

 

. 박스플롯의 작성 절차

절차 설명
사분위 계산 데이터의 사분위수를 계산
박스 생성 1사분위수와 3사분위수를 이용하여 박스를 생성. 박스의 길이는 IQR
중간값 표기 2사분위수에 해당하는 위치에 선을 그림
최대값 및 최소값 표기 3사분위수에서 1.5IQR을 더한 위치와, 1사분위수에서 1.5IQR을 뺀 위치
이상값 표기 최대값 및 최소값의 범위를 넘어가는 자료는 기호로 표시

- 박스플롯 이용시 데이터의 분포를 쉽게 확인가능

 

 

 

 

 

 

혼동행렬

 

• TP(True Positives) : 실재값과 예측치 모두 True 인 빈도
• TN(True Negatives) : 실제값과 예측치 모두 False 인 빈도
• FP(False Positives) : 실제값은 False 이나 True로 예측한 빈도
• FN(False Negatives) : 실제값은 True 이나 False로 예측한 빈도

 

 

 


- 정분류율(accuracy, recognition rate) : 전체 관측치 중 실제값과 예측치가 일치한 정도를 나타낸다. 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표이다.  (TP+TN)/(TP+TN+FP+FN)

 

- 민감도(sensitivity) = TP/(TP+FN) ==> 실제값이 True 인 관측치 중 예측치가 적중한 정도


- 특이도(specificity) = TN/(FP+TN) ==> 실제값이 False 인 관측치 중 예측치가 적중한 정도


- 정확도(precision) =  TP/(TP+FP) ==> True로 예측한 관측치 중 실제값이 True 인 정도. 정확성 지표


- 재현율(recall) = TP/(TP+FN) = 민감도 ==> 실제값이 Ture 인 관측치 중 예측치가 적중한 정도. 모형의 완전성을  (completeness)을 평가


- F1 Score = (2*precision*recall) / (precision+recall) ==> 정확도와 재현율의 조화평균. 정확도와 재현율에 같은 가중치를 부여하여 평균

 

 

 

'ITPE > 인공지능_데이터분석' 카테고리의 다른 글

Boxplot  (0) 2021.04.12
LSTM  (0) 2021.04.09

 

 

[정의] RNN에서 학습방법의 역전파 거리가 늘어날경우 gradient값이 폭증하거나 사라지는 문제점을 개선하는 알고리즘

 

[RNN의 장기의존성(Long-Term Dependency) 문제] 이전 정보입력 위치와 현재 입력위치가 멀 경우 학습데이터 유실되는 문제


※ tanh : Hyperbolic Tangent. 시그모이드 함수를 조금 변형하여 1 ~ -1까지 출력되는 함수. 시그모이드보다 기울기가 가파라서 학습속도가 빠르지만, 양끝단 포화가 더 심하여, Vanishing Gradient 문제에서는 취약함.


※ 시그모이드 3개는 단지 아날로그적 스위치 역할수향. 노드의 전달 함수는 하이퍼탄 이용.

 

 

 

 

 

 

+ Recent posts