오늘 한 일

연휴에 있었던 일

  • feature extraction 구현을 완료했다.
    • 근데 뽑고나서 저장되는 데이터의 양이 생각보다 많이 큰 것 같아서 실제로 쓰기엔 어려울 것 같다.

GIGACHAD 출범

  • GIGACHAD를 다 만들어서 GPU에 올려봤는데 Whisper의 모든 hidden state로 Attention 알고리즘을 진행하는 부분에서 자꾸 터졌다.
  • 아마 activation 값이 많이 저장되는 것이 문제인 것으로 추정해서, gradient checkpoint를 이용하도록 고쳐보았다.
  • 그러니 계속 터지던 메모리가 안정될 수 있었고, 기존 batch size를 2로 잡아 3일 정도 걸리는 훈련 시간을 batch size를 8로 설정하여 2일 정도로 줄일 수 있었다!

발표자료 준비

  • 랩업 레포트를 먼저 써야 되긴 하는데, 일단 추가적인 실험이 뭐가 필요할지 더 생각 해볼 겸 간단하게 발표자료를 만들어보고 있었다.
  • 근데 GIGACHAD 출범에 서포트 하느라 많이는 못만들었다 ㅎ;

다음에 할 일

  • GIGACHAD 고친 거 커밋하고 PR 보내기
  • 발표자료 마저 만들기