# 베이즈 정리란?
과거에 이미 일어난 어떤 사건의 사전 확률과 앞으로 일어날 사후확률 사이의 관계를 확률적으로 나타내는 이론이다.
공식은 다음과 같다.
이걸 만약 '당첨'이 포함된 메일이 스팸일 확률을 알고싶을 때 이 베이즈 정리를 적용시켜 볼 수 있다.
P(스팸) = 0.2
P('당첨'|스팸) = 0.15
P('당첨') = 0.4 이라는 것을 알고 있을 때,
P(스팸|'당첨') 는 0.75 가 된다.
즉 '당첨'이 포함된 메일이 스팸일 확률은 75%이다.
# 나이브 베이즈 모형이란?
베이즈 정리에 기반하여 범주를 예측하는 지도학습모형이다.
주로 스팸필터, 문서분류 등의 텍스트 분류문제에 사용된다.
- 독립변수들 간의 독립성을 전제로 한다. 따라서 변수들간의 영향력과 관계를 무시할 수 있다.
- 독립변수 데이터 형태에 따른 3가지 유형이 있다.
1) 가우시안 나이브 베이즈 : 독립변수가 연속적, 수치형이다
2) 베르누이 나이브 베이즈 : 독립변수가 0또는 1이라는 이진값만 가질 때 사용한다.
- 베르누이 나이브 베이즈 모형은 학습데이터에 나타나지 않았던 단어가 예측하고자 하는 목표 데이터에 나타나면
확률 추정치는 0이 되어 이 추정치가 곱해질 떄 다른 확률의 모든 정보를 없애는 문제가 발생한다.
따라서 이를 해결하기 위해 값을 보정하는 스무딩 기법을 사용한다.
3) 다항분포 나이브 베이즈 : 독립변수가 다항분포 표본이라고 가정한다.
단어 출현 횟수에 따라 값을 다르게 한 데이터에는 다항분포로 사용하는 것이 적합하다.
# 베르누이 나이브 베이즈를 활용한 스팸메일 분류 모형 만들기
https://childult-programmer.tistory.com/68 참조
얄루 오늘 데이터 공부 끝이당!
[혼공머] 5장 트리알고리즘 1) Decision Tree (0) | 2024.05.23 |
---|---|
[혼공머] 4장 다양한 분류 알고리즘 (0) | 2024.05.09 |
[혼공머] 3장 회귀 알고리즘과 모델 규제 (0) | 2024.05.06 |
[개인 프로젝트] 신용카드 이상거래 탐지 모델 만들기- 딥러닝 (0) | 2024.05.06 |
[혼공머] 1, 2장 k-최근접 이웃 알고리즘-분류, 회귀, 선형회귀 (0) | 2024.02.21 |