오늘 한 일
프로젝트
- 홍 모 캠퍼님이 Gemma를 이용해서 데이터 노이즈를 복원하셨다.
- 그에 따라 복원된 텍스트
text열과 그 전 텍스트 original열이 남게 되었다.
- 그 행이 복원이 필요한 행이었는지 판별하는
noise 값도 있는데, 이 값이 1이라면 복원이 필요하다고 판별하고 복원을 진행하고 아니라면 복원을 따로 진행하지 않은 것 같다.
- LLM이 0인지 1인지 알아서 판단하고 복원도 알아서 진행한다.
- 근데 이 값이 1이라고 되어있지만, 실제로는 노이즈가 없어서 복원을 진행하지 않은 다수의 경우를 발견해서 이것들을 제외하고자 했다.
text와 original 사이의 BLEU 점수를 계산하여 이 값이 높으면 두 문자열이 유사하므로 복원이 필요없었던 케이스로 판단, noise의 값을 0으로 바꾸어주었다.
- 근데 이를 반영하고 노이즈 교정을 진행한 것이 제출해봤을 때 점수가 영 나오지 않았다 ㅠㅠ.
- 데이터 필터링도 진행해봤는데… 이거 기준이 애매해서 그냥 LLM한테 시키는 게 최고일 것 같다 ㅠㅠ. 인간이란 무력하구만.
다음에 할 일
- 발표 자료를 위한 노이즈 복원기 성능 비교해보기 (진짜 해야함)
- BLEU 기반 노이즈 재판별 성능 향상을 위한 계획 수립…