상세 컨텐츠

본문 제목

[개인 프로젝트] 베르누이 나이브 베이즈 모형- 스팸 메일 분류기 만들기

통계, ML 방법론

by eun_00 2024. 2. 18. 20:53

본문

# 베이즈 정리란?

과거에 이미 일어난 어떤 사건의 사전 확률과 앞으로 일어날 사후확률 사이의 관계를 확률적으로 나타내는 이론이다.

공식은 다음과 같다.

https://angeloyeo.github.io/2020/01/09/Bayes_rule.html

 

이걸 만약 '당첨'이 포함된 메일이 스팸일 확률을 알고싶을 때 이 베이즈 정리를 적용시켜 볼 수 있다.

 

P(스팸) = 0.2

P('당첨'|스팸) = 0.15

P('당첨') = 0.4 이라는 것을 알고 있을 때,

P(스팸|'당첨') 는 0.75 가 된다.

즉 '당첨'이 포함된 메일이 스팸일 확률은 75%이다.

 

# 나이브 베이즈 모형이란?

베이즈 정리에 기반하여 범주를 예측하는 지도학습모형이다.

주로 스팸필터, 문서분류 등의 텍스트 분류문제에 사용된다.

 

- 독립변수들 간의 독립성을 전제로 한다. 따라서 변수들간의 영향력과 관계를 무시할 수 있다.

- 독립변수 데이터 형태에 따른 3가지 유형이 있다.

 1) 가우시안 나이브 베이즈 : 독립변수가 연속적, 수치형이다

 2) 베르누이 나이브 베이즈 : 독립변수가 0또는 1이라는 이진값만 가질 때 사용한다.

  - 베르누이 나이브 베이즈 모형은 학습데이터에 나타나지 않았던 단어가 예측하고자 하는 목표 데이터에 나타나면 

 확률 추정치는 0이 되어 이 추정치가 곱해질 떄 다른 확률의 모든 정보를 없애는 문제가 발생한다.

따라서 이를 해결하기 위해 값을 보정하는 스무딩 기법을 사용한다. 

3) 다항분포 나이브 베이즈 : 독립변수가 다항분포 표본이라고 가정한다.

단어 출현 횟수에 따라 값을 다르게 한 데이터에는 다항분포로 사용하는 것이 적합하다.

 

# 베르누이 나이브 베이즈를 활용한 스팸메일 분류 모형 만들기

https://childult-programmer.tistory.com/68 참조

 

 

얄루 오늘 데이터 공부 끝이당!

관련글 더보기