오늘 한 일
연휴에 있었던 일
- feature extraction 구현을 완료했다.
- 근데 뽑고나서 저장되는 데이터의 양이 생각보다 많이 큰 것 같아서 실제로 쓰기엔 어려울 것 같다.
GIGACHAD 출범
- GIGACHAD를 다 만들어서 GPU에 올려봤는데 Whisper의 모든 hidden state로 Attention 알고리즘을 진행하는 부분에서 자꾸 터졌다.
- 아마 activation 값이 많이 저장되는 것이 문제인 것으로 추정해서, gradient checkpoint를 이용하도록 고쳐보았다.
- 그러니 계속 터지던 메모리가 안정될 수 있었고, 기존 batch size를 2로 잡아 3일 정도 걸리는 훈련 시간을 batch size를 8로 설정하여 2일 정도로 줄일 수 있었다!
발표자료 준비
- 랩업 레포트를 먼저 써야 되긴 하는데, 일단 추가적인 실험이 뭐가 필요할지 더 생각 해볼 겸 간단하게 발표자료를 만들어보고 있었다.
- 근데 GIGACHAD 출범에 서포트 하느라 많이는 못만들었다 ㅎ;
다음에 할 일
- GIGACHAD 고친 거 커밋하고 PR 보내기
- 발표자료 마저 만들기