1. 정의

강화학습(Reinforcement Learning, RL)은 에이전트(Agent)가 환경(Environment)과 상호작용하면서 보상(Reward)을 최대화하는 행동(Policy)을 학습하는 기계학습 기법.

- 에이전트는 환경의 상태(State)를 관찰하고, 특정 행동(Action)을 선택하며, 그 결과로 보상을 받으며, 이 과정을 반복하면서 최적의 정책(Optimal Policy)을 학습

 

 

 

 

2. 핵심 기술

기술명
설명
마르코프 결정 과정(MDP)
상태(State), 행동(Action), 보상(Reward), 상태 전이 확률(Transition Probability), 감가율(Discount Factor)로 구성된 강화학습의 수학적 모델링 방법
정책(Policy)
에이전트가 특정 상태에서 어떤 행동을 선택할지를 결정하는 전략으로, 확률적 정책(Stochastic)과 결정적 정책(Deterministic)으로 구분
가치 함수(Value Function)
특정 상태 또는 상태-행동 쌍의 가치를 평가하는 함수로, 상태 가치 함수(V)와 행동 가치 함수(Q)로 나뉨
탐색-활용 균형
최적 정책을 학습하기 위해 새로운 행동을 탐색(Exploration)하는 것과 기존 학습된 지식을 활용(Exploitation)하는 것 사이의 균형 조절 방법
Q-러닝(Q-Learning)
환경의 모델 없이 행동 가치 함수(Q)를 학습하여 최적 정책을 도출하는 오프라인 강화학습 알고리즘
딥 Q-네트워크(DQN)
딥러닝을 활용하여 Q-값을 근사하는 방법으로, 높은 차원의 상태 공간에서도 효과적으로 학습 가능
정책 그래디언트(Policy Gradient)
정책을 직접 학습하는 기법으로, 확률적 정책을 최적화하기 위해 그래디언트 기반 학습을 사용

3. 강화학습의 활용 방안

활용 분야
설명
로보틱스
로봇의 자율 제어 및 최적의 동작 학습에 활용됨
게임 AI
강화학습을 통해 게임 내 인공지능이 최적의 전략을 학습함 (예: 알파고)
추천 시스템
사용자 행동 데이터를 기반으로 최적의 콘텐츠를 추천하는 데 활용됨
금융 및 트레이딩
주식 및 외환 거래에서 최적의 매매 전략을 학습하는 데 사용됨
의료 및 헬스케어
치료 계획 최적화 및 신약 개발을 위한 강화학습 응용 사례 존재함

4. 강화학습 기술 발전 방안

발전 방향
설명
효율적인 탐색 방법 연구
샘플 효율성을 높이고 빠른 수렴을 위한 새로운 탐색 전략 개발 필요함
일반화 능력 향상
특정 환경이 아닌 다양한 환경에서도 성능을 유지하는 학습 기법 연구 필요함
연산 비용 절감
강화학습 모델의 학습 속도 향상 및 연산 자원 효율적 활용 방안 필요함
설명 가능성 강화
강화학습 모델이 특정 행동을 선택한 이유를 설명할 수 있도록 하는 연구 중요함

"끝"


 



'ITPE > 인공지능_데이터분석' 카테고리의 다른 글

Boxplot  (0) 2021.04.12
혼동 행렬(confusion matrix)을 이용한 분류 모형의 평가지표  (0) 2021.04.09
LSTM  (0) 2021.04.09

 

 

 

I. 데이터의 직관적인 분포, 박스 플롯의 개념
- 자료들의 최대값과 최소값, 중앙값, 사분위수 등을 이용하여 자료의 측정값들이 어떤 모양으로 분포되어 있으며, 이상치 등을 쉽게 파악할 수 있는 도표

 

II. 박스플롯의 구성도 및 설명

. 박스플롯의 구성도 및 용어

용어 설명
사분위 자료를 작은 값으로부터 4등분
IQR 1사분위와 3사분위의 차이
Outlier MaxMin 범위를 벗어나는 값
최대값 1사분위에서 1.5 IQR을 뺀 것
최소값 3사분위에서 1.5 IQR을 더한 것
중간값 2사분위수로 중간값
평균값 전체 자료의 평균으로 (+)로 표기

 

 

 

. 박스플롯의 작성 절차

절차 설명
사분위 계산 데이터의 사분위수를 계산
박스 생성 1사분위수와 3사분위수를 이용하여 박스를 생성. 박스의 길이는 IQR
중간값 표기 2사분위수에 해당하는 위치에 선을 그림
최대값 및 최소값 표기 3사분위수에서 1.5IQR을 더한 위치와, 1사분위수에서 1.5IQR을 뺀 위치
이상값 표기 최대값 및 최소값의 범위를 넘어가는 자료는 기호로 표시

- 박스플롯 이용시 데이터의 분포를 쉽게 확인가능

 

 

 

 

 

 

혼동행렬

 

• TP(True Positives) : 실재값과 예측치 모두 True 인 빈도
• TN(True Negatives) : 실제값과 예측치 모두 False 인 빈도
• FP(False Positives) : 실제값은 False 이나 True로 예측한 빈도
• FN(False Negatives) : 실제값은 True 이나 False로 예측한 빈도

 

 

 


- 정분류율(accuracy, recognition rate) : 전체 관측치 중 실제값과 예측치가 일치한 정도를 나타낸다. 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표이다.  (TP+TN)/(TP+TN+FP+FN)

 

- 민감도(sensitivity) = TP/(TP+FN) ==> 실제값이 True 인 관측치 중 예측치가 적중한 정도


- 특이도(specificity) = TN/(FP+TN) ==> 실제값이 False 인 관측치 중 예측치가 적중한 정도


- 정확도(precision) =  TP/(TP+FP) ==> True로 예측한 관측치 중 실제값이 True 인 정도. 정확성 지표


- 재현율(recall) = TP/(TP+FN) = 민감도 ==> 실제값이 Ture 인 관측치 중 예측치가 적중한 정도. 모형의 완전성을  (completeness)을 평가


- F1 Score = (2*precision*recall) / (precision+recall) ==> 정확도와 재현율의 조화평균. 정확도와 재현율에 같은 가중치를 부여하여 평균

 

 

 

'ITPE > 인공지능_데이터분석' 카테고리의 다른 글

강화학습(Reinforcement learning) 기본 내용  (2) 2025.02.06
Boxplot  (0) 2021.04.12
LSTM  (0) 2021.04.09

 

 

[정의] RNN에서 학습방법의 역전파 거리가 늘어날경우 gradient값이 폭증하거나 사라지는 문제점을 개선하는 알고리즘

 

[RNN의 장기의존성(Long-Term Dependency) 문제] 이전 정보입력 위치와 현재 입력위치가 멀 경우 학습데이터 유실되는 문제


※ tanh : Hyperbolic Tangent. 시그모이드 함수를 조금 변형하여 1 ~ -1까지 출력되는 함수. 시그모이드보다 기울기가 가파라서 학습속도가 빠르지만, 양끝단 포화가 더 심하여, Vanishing Gradient 문제에서는 취약함.


※ 시그모이드 3개는 단지 아날로그적 스위치 역할수향. 노드의 전달 함수는 하이퍼탄 이용.

 

 

 

 

 

 

+ Recent posts