오늘 한 일
코드 분석
- 피어세션 직전까지 계속 코드를 보았다….
- Q-Former에서 BERT를 어떻게 사용하는지에 대해서는 그래도 좀 이해가 많이 된 것 같다.
- 그 내용을 정리해서 Discussion으로 남겨두었다….
- 아직 다 작성 못하긴 했는데, 아마 레포 공개된 시점에는 다 작성이 되지 않았을까?
파라미터 분석
- 피어세션에서는 강 모 캠퍼님께서 SALMONN의 파라미터를 분석한 결과를 공유해주셨다.
- 학습 가능한 부분인 Q-Former를 중점적으로 경량화를 해야되지 않을까 생각했는데 전혀 아니었다.
- LLaMA 3B이 약 80%로 가장 많았고, 그 다음이 Whisper였다….
- 내가 중요하다고 생각했던 Q-Former는 거의 1%도 안되는 크기를 갖고 있었다.
- BEATs도 엄청 크기가 작았다. 전체의 2% 정도?
- 그래서 당장 떠올린 방법은 LLaMA 1B로 바꿔끼워놓고 학습시켰을 때 성능을 확인하는 것이라서 일단 다음 계획은 그렇게 잡아보았다.
멘토링
- LIMA와 G-EVAL 논문리뷰를 진행했다.
- 우리 진행 사항과 계획을 말씀드렸는데… 멘토님의 pre-training 경험을 공유해주셨다.
- GPU 6대?로 2TB 학습시키는데 3일 걸렸다고 하신다… ㅋㅋ;
- 진짜 쉽지 않은 길일 것 같아서 다른 길을 찾아봐야 할 것 같다.
앞으로의 계획
- 그러다가 깃허브에 갑자기 우리 상황에 딱 필요한 레포지토리가 피드에 올라왔다!
- 이유인즉슨, 아이즈원 동료였던 홍 모 캠퍼님께서 우리오 같은 기업 해커톤을 진행하고 계신데… 비슷한 문제를 겪고 계셨던 것인지 딱 적절한 레포를 찾아서 스타를 누르신 거였다….
- 의도치 않은 치팅이 되어버린 것 같긴 한데… 그렇다고 못 본척할 수도 없어서… 일단 내일 한번 확인해보는 걸로…
다음에 할 일
- 논문리뷰 대비 겸 vllm 리뷰 진행
- 어제 쓰다 남은 Discussion 마저 쓰기