오늘 한 일

피어세션 전

피어세션 전까지는 모여서 발표자료를 만들었다.
- 근데 타임라인 만들고 그런 시간이 생각보다 오래걸렸다….
피어세션에서는 오늘 병가내신 박 모 캠퍼님께서 들어오셨다.
- 그때를 기점으로 만들던 발표자료는 잠시 접어두었다.
- 그리고 지금까지 돌렸던 학습을 잠시 멈춰두고 성능보다 efficiency를 우선으로 측정해보기로 했다.

whisper-v3-turbo가 더 작은 파라미터를 쓰길래 당연히 차지하는 모델의 용량이 작을 줄 알았더니 오히려 더 큰 용량을 차지하는 것을 알 수 있었다.
그건 whsiper-v3-turbo가 encoder에서는 좀 더 많은 파라미터를 쓰는 대신, decoder에서 엄청난 경량화를 이루었기 때문이다.
근데 우리는 encoder 부분만 쓰기 때문에 오히려 용량이 늘어나는 경험을 할 수 있었다.
그 외에도 다양한 Pruning 기법을 각각 적용해본 모델에 대해서도 efficiency를 찍어봤는데 효율이 그렇게 크게 차이나지 않아서 기존 방법론을 일단 베이스라인으로 유지하기로 했다.

일단 공식적으로는 마지막 멘토링…이긴 한데 다음 주에 뒤풀이 겸 대면으로 보기로 하였다.
꽤 수확이 많은 멘토링이었다…. 저번 주에 들었었더라면…
우리가 겪고 있는 문제가 DDP가 잘 안되는 것이 있었는데, 우리가 허깅페이스 라이브러리의 Trainer를 쓰지 않고, 자체적인 runner를 만들어서 torch.distribute? 라이브러리를 쓰기 때문에 있었던 문제로 확인되었다.
- 그래서 이거 수정해보기로 했다.
또 vllm 적용이 안되던 문제가 있었는데, 이게 멀티모달을 지원하게 하기 위해서는 다른 방법을 썼어야 했다는 걸 알았다.
대부분의 문제는 LLaVa 쪽 코드를 보면 다 해결되는 것 같았다… 허허….