사실 오후에는 GPU 서버를 받을 수 있을 줄 알았는데, 예정보다 늦어지고 있는 것인지 회고를 작성하는 지금 시점에도 아직 서버를 받지 못했다. (오늘 나온다고 했는데 ㅠㅠ)
그래서 일단 베이스라인 코드를 다 같이 읽어보면서 어떤 부분에서 경량화를 할 수 있을지 고민해보기로 하였다.
QFormer 코드가 상당히 긴데 대부분이 BERT에 대한 코드인 것 같다.
읽다가 포기할까 생각도 들었는데… 근데 아마 LLM이랑 Whisper 부분을 따로 경량화하긴 (경량화를 하면 freeze를 풀고 재학습을 시켜야하므로) 어려울 것 같다. 그러면 결국엔 QFormer를 경량화해야되지 않을까 하는 생각이 들어서 계속 열심히 읽다가 하루가 다 갔다.
가중치가 공개된 pre-trained model을 재학습없이 경량화를 시키는 것이 가능할까?
우리의 목표는 베이스라인 모델을 일단 하나 정하면 더 이상 모델 조사는 멈추고 계속 경량화 기법을 적용해나가면서 latency와 memory usage를 깎아나가보는 느낌으로 정했다.
베이스라인 모델은 최대한 이번 주 안에 찾아보는 걸로 계획을 세우긴 했는데, 아직 서버를 못받아서…