자연어처리
중간 40% + 숙제 30%(프로그래밍 과제 5개 정도) + 논문 발표 20% + 태도 10%
중간고사 5월 15일
0313
스팸메일 분류: 1 | 0 -> binary classification
input text를 vector로 만들기 위해 encoder로 feature를 뽑아낸다.
그 feature를 사용해서 predictive model은 classifier가 되어서 예측을 한다.
unique한 단어들의 set을 voca라고 하고 v로 표시한다.
bag-of-words는 단어의 모음이다.
문장을 성공적으로 벡터로 만들어내면 많은 정보들이 날라가겠지만 컴퓨터에 인식시킬 순 있다.
첫번째 단점은 너무 길다는 것이다.
단어, 문장 표현하는데 수천만 길이를 써야하고 그 중 대부분은 0이다.
이게 얼마나 공간 낭비인가?
이걸 sparse하다고 한다. 희소행렬 등..
sparse한 matrix는 공간낭비 시간낭비로 이어진다.
즉 벡터를 갖다가 nn에 태울건데 모든 정보 간의 관계를 학습시키기 때문에 n^2 이상의 파라미터가 필요하다.
두번째 단점은 순서가 중요한데 그 정보가 날라간다.
감정 분류 -> 네개의 포커스가 있다고 쳐보자 (실제론 수십 수백만개가 있음)
frequency로 mapping
전처리 의미있는 단어만 남기기
stop words: 구조를 위한 단어
줄기만 남기자.
가지를 다 쳐냄
tune을 tuning tuned tunes를 다 voca에 따로 보관하면 문제가 있다.
그래서 ing, ed, es를 다 잘라버린다.
ed로 끝나면 없애 이런식으로 작동한다.
feature가 결과를 학습하는데 얼마나 중요한지..
w_f 가 모델 파라미터에 속하는 것
학습이 되는 모델 파라미터
파라미터기 때문에 theta라고도 쓴다.
전체적인 점수에 경향성 더하기
logistic regression: 머신러닝적으로 접근
naiive bayes: 확률적으로 접근
positive class에 속할 probability로 시그모이드 function을 정의하고 사용해서 정수를 확률화하기 위해 사용한다.
pos , neg 간의 ratio
pos일 확률을 p라고 하면 neg일 확률은 1-p이다.
그러면 odds ration는
odds에 log를 씌우면
probabilty를 실수범위(−∞, ∞)로 바꿀 수 있다.
역함수를 취하면 실수 범위를 probability로 바꿀 수 있다.
logit을 linear regression model로 사용할 수 있다. z(−∞, ∞)로 사용할 수 있게 된다.
0.5를 decision boundary라고 한다.
미분이 굉장히 쉽다.
확률이 0이 안되게 만들어줌
prior와 반대되는 개념인 posterior
사후확률 (등장하고 나서야 알 수 있다.)
likelihood에 prior를 줘서 클래스간 imbalance한 상태까지도 고려한다.
w1x1 + w2x2..
에서 x가 중요했었다
근데 이게 2010 대가 오면서 GPU가 발전돼서 병렬적인 계산의 효율성이 증가하고 nn 모델로 계산가능하게 되었다.
논리회로 연산자 중 하나인 XOR.
여러 feature가 들어갈 때 w를 곱해서 더함
이걸 사용해서 xor모델을 구현할 수 있을까?
못나눔
decision boundary
xor을 나누기 위해선 선이 line이면 안된다는 결론이 생긴다.
여러 레이어에 퍼셉트론을 태우자
퍼셉트론을 여러 겹 태운다는 의미
feedforward nn이라고 하고 mlp라고한다.
병렬적으로 matrix multiplycation을 GPU쓰면 성능을 끌어올릴 수 있음
파란 선이 시그모이드로 0부터 1사이의 값을 가짐.
시그모이드가 0~1이 되는게 불만이라서 만든게 주황색인
하이퍼볼릭 탄젠트 (중간 값이 0이 됨)
요즘은 relu를 씀 가장 중요한건 gradient vanishing을 없애준다는 것이다.
Evaluation
classification evaluation은 데이터에 대해서 이야기를 안해볼 수 없는데 데이터셋이라는 거에 종류가 많이 있다.
원하는건 데이터 사용해서 학습시키고 unseen data를 평가한다
근데 unseen이니까 볼 수 없어서
테스트데이터라고 하는것은 unseen데이터를 한거라서 학습과정에 절대로 들어가선 안된다.
그러면 간단하게