오늘 한 일
- 우리 팀이 진행한 데이터 전처리 중 영어 정규화라는 게 있다.
dev.csv를 통해 확인해보니 문장1에 나오는 고유명사 중 하나를 영어로만 바꾸어 문장2로 사용하는 경우가 꽤 있는 것을 확인했다.
- 그래서 그런 영어가 포함되어 있으면 한글로 번역하여 데이터를 잘 알아볼 수 있게끔 수정하는 정규화를 진행했고, 이를 영어 정규화라고 불렀다.
- 근데 영어 정규화가 영어가 포함되기만 하면 일어나서 다음과 같은 문제가 발생했다.
KT, KBS와 같은 단어도 번역이 일어나 오히려 알기 어렵게 된다.
- 소스가
slack인 데이터셋의 경우 문장에 <PERSON>이라는 토큰이 포함되어 있는데, 이를 <사람>으로 번역해버리는 문제가 있었다.
cctv나 km와 같은 영단어도 마찬가지로 번역이 일어나서 성능 저하가 있을 것 같다.
- 무엇보다도 영어가 들어간 데이터셋이 의외로 많아서 정규화 과정이 너무 오래 걸린다.
- 그래서 알파벳 대문자로만 이루어진 영단어나 길이가 4이하인 영단어는 정규화를 진행하지 않도록 바꾸어주었고, 이 설정으로 public 리더보드에서의 점수를 갱신했다!
- 또,
[CLS] 토큰의 임베딩을 이용하여 label 뿐만 아니라 binary_label 또한 예측하는 classifier를 추가하여, 모델이 총 2개의 classifier를 사용하여 multi task를 수행하도록 하는 실험을 진행해보고 있다.
- 근데 생각해보니까 오늘은 하이퍼파라미터 튜닝이랑 앙상블을 하기로 했다.
- 그런데 오전에 하던 일을 관성있게 이어가다 보니까 결국 오후에도 해버리고 저 작업들을 신경쓰지 못한 것 같다.
다음에 할 일
- 내일은 진짜 하이퍼파라미터 튜닝(주로
wandb sweep을 이용해서?)을 진행해볼 생각이다.
- 또한 앙상블 작업을 위해 지금 베이스 모델 외의 다른 모델도 많은 학습을 진행해보아야 할 것 같다.