mecab 단어 원형 추출

tfidf, count Vecotr

훈련, 테스트 데이터 나누기

X (feature)

y (target)

train, test split

정규화

LogisticRegression

파라미터 조정

  1. 파라미터 없을때 -> 0.81
  2. C(cost function) 추가: 크면, 훈련 복잡 & 작으면 훈련 덜 복잡 -> 과대 적합 혹은 과소적합 문제 해결
    • 100: 0.78 (떨어져버림)
    • 0.2: 0.82
    • 0.1: 0.84
    • 0.01: 0.83
    • 0.001: 0.83
    • 0.0001: 0.68

확률로 뽑기

실제 값과 예측 확률 비교

helpful 상위 50개 중 카테고리 빈도수

Confusion Matrix (성능 측정)

[예측,실제]

정확도

정밀도

정밀도 높이기!!!

우리는 상위 리뷰에 unhelpful 리뷰가 포함되지 않는게 중요하기 때문에,
정확도가 떨어지더라도 정밀도를 높이는 것이 중요하다 (FP 값 줄이기)

문턱값을 0.5에서 높여서 정밀도를 향상시킨다

FP - 27개에서 6개로 감소 (helpful 리뷰가 아닌데, helpful 리뷰라고 잘못 예측)
FN - 41개에서 104개로 증가 (helpful 리뷰인데, helpful 리뷰 아니라고 잘못 예측)

정확도, 정밀도

정확도가 85 에서 77으로 감소했지만, 정밀도 올리는 것이 목표이므로 문턱값을 0.7로 조정해준다.

교차검증해보기