오늘 한 일
프로젝트
베이스라인 코드 리팩토링 -完-
- 주말동안 길고 길었던 베이스라인 코드 리팩토링 작업을 완료했다.
- 근데 결과적으로는 merge되지는 않았다.
- 팀원들이 막 반대해서 쓰레기같다고 하지말자 한 건 아니고…
- 정신차리고 보니까 코드가 정말 많이 변해있어서… 나야 내가 바꾼 코드니까 편하지만, 다른 분들은 별로 편하지 않을 수 있을 것 같아 내가 먼저 투트랙으로 가도 괜찮다고 이야기했다.
- 마침, 박 모 캠퍼님께서 기존 베이스라인 코드에서 작업하시던 내용이 있어서 이를 새로운 베이스라인 코드로 옮기는 작업을 하면… 또 시간이 오래 걸리니까 그런 이유로 좌절되었다.
- 그래도 팀원 반응이 그렇게 막 나쁘진 않았고 (아무래도 앞에서 나쁜 말은 하기 쉽지 않으니까요) 프로젝트가 끝난 이후에 시간이 널널해지면 그때 관리하면 좋을 것 같다는 정도로 넘어갔다.
- 원래 주말동안 하려고 했던 것들을 오늘 확인해보니까 이거 하나 밖에 못했다 ㅋㅋ;
- 오늘보니까 저번 개인회고 너무 대충 쓴 것 같네용….
- 사실 저 날 생일이었는데 코드도 넘 많이 짜서 싱싱미역이었습니다 ㅠㅠ.
검증용 데이터셋 검증
- 그리고 마참내
evaluate() 디버깅을 시작했다.
- 먼저 검증용 데이터셋을 inference한 후 accuracy를 찍어봤다.
- 근데
0.8xxx로 굉장히 높게 나왔다? evaluate()했을 때는 분명 0.4xxx로 고정되어 있었다.
- 이게 같은 데이터셋에서 같은 로직을 적용했는데 어떻게 이런 결과가 나왔을까? 그 이유는 네이버에도 나와있지 않다….
- 그래서
compute_metrics 부분을 확인해보다가, 정답이 올 위치에서의 logit 값이 제일 높은 게 뭔지 확인해봤는데 \n이었다?
- 근데 또 inference 단계에서 찍어보면 숫자가 나온다…. 두 차이가 도대체 뭘까?
- 그래서 그것 때문에 계속 고민하다가 왜 이런 일이 일어나는지는 찾지 못했다…. 일단은 그냥 inference 베이스로 검증을 하는 게 좋지 않을까….
다음에 할 일
- 멘토링 때 받은 프로젝트 피드백을 수용하여, 굳이 2-step으로 정답을 구하지 말고, 한 번에 정답을 구하도록 해보기.
- 데이터 증강이 미래인가?
- 우리가 데이터 증강을 하나도 안하긴 했다…. 중요성을 간과해버렸을지도?
- 또 마지막 비장의 무기… 앙상블을 사용해야 한다….
- 근데 차이가 너무 많이 나서 아마 못 따라잡을 것 같다.