오늘 한 일

오프라인 미팅

  • 부산에서 거주하시는 서 모 캠퍼님을 제외하고 오프라인 장소 대여를 해서 모였다.
    • 비록 완전체는 아니었지만 우리 팀 최초의 공식모임을 가진 거라 좋았다.
    • 근데 사실 언럭키 완전체라고 봐도 되는 게 서 모 캠퍼님은 대여한 장소에 비치된 TV에서 계속 띄어놨기 때문에, 일방적으로는 계속 함께 있는 기분이 들었다.
  • 확실히 장단점이 존재하는 것 같긴하다.
    • 장점은 실시간으로 의견 교류가 정말 간단하고 쉽게 일어나고, 그냥 어떤 게 안된다고 하면 다 같이 거기로 모여서 코드 보면서 의논하고 이런 게 되게 좋았던 것 같다.
    • 단점은… 일단 거기까지 가려면 일찍 일어나야 하고 이동도 해야되니 좀 쉽게 피로해진다는 점이랑, 내 평소 환경이 데스크톱이라 노트북으로 코딩하려면 환경도 다시 다 설정해야한다는… 그런 이슈가 있었던 것 같다.
    • 장점이자 단점은 스몰톡을 쉽게 할 수 있다는 거? 정서적 교류는 활발히 일어날 수 있지만, 그만큼 또 프로젝트에 집중할 시간을 조금씩 뺐기는 아쉬운 점이 있었다. 근데 또 그러다가도 프로젝트 이야기로 쉽게 넘어가기도 하고… 뭐 그렇다.

GIGACHAD

  • 일단 GIGACHAD를 개발하기 위해 전신이 되는 LTU-AS의 소스 코드를 거의 하루 종일 봤다: 링크
  • 이게 일반적인지 모르겠는데 허깅페이스 라이브러리를 그대로 다 레포에 옮겨놓고 필요한 부분만 고쳐서 사용하셨는데… 그런 숨겨져 있는 코드를 찾다보니 시간이 너무 많이 갔던 것 같다.
  • 하지만 코드 자체는 그렇게 복잡한 부분이 없었던 것 같아서 구현 자체는 그렇게 오래 걸리지 않을 것이라고 예상된다.

프로젝트 이모저모

오프라인 멘토링

  • 오프라인 멘토링이라는 제도가 있었다.
  • 이게 우리는 우리 멘토님이랑 대여한 장소에서 오프라인 멘토링을 진행할 수 있는 제도인 줄 알았는데, 그게 아니라 그 날 당직 멘토님에게 도움을 받을 수 있는 것이었다!
    • 그 날 당직 멘토님은 아이즈원의 2번째 멘토님이셨다!
  • 이런 줄 알았으면 신청해볼 걸 그랬다… 싶었는데, 멘토님께서 우리에게 그래도 생각해볼만한 새로운 시각을 공유해주시고 가셨다.
  • 바로바로 학습 시간이 너무 오래걸리는 것이 raw audio로부터 feature를 뽑는 과정이 병목일 수도 있다는 가설을 제시해주셨다.
  • 그래서 차라리 이걸 미리 뽑아두면 다음부터는 feature를 뽑는 과정을 생략하고 학습을 시킬 수 있으니 빨라질 수 있을 것이라고 가설을 세워두셨고, 우리도 그럴 것 같아서 해보겠다고 했다.
  • 근데 feature를 모든 데이터에 대해 다 뽑아두면… 이게 용량이 어마무시해서… 아마 다 뽑는 건 현실적으로 어려워 보인다…
    • 용량을 어떻게 잘 관리하면 될까 싶기도 하고…

진짜 학습 시작

  • 어제 멘토링을 통해 1 epoch에 하루 정도 걸리는 실험은 할만하다고 들어서… 실제로 한 번 실험을 돌려보았다.
    • 최대한 실험 환경을 LLaMA-3B와 유사하게 맞추기 위해, 원래 있던 config.yaml 파일에 모델만 바꿔 끼워주었다.
  • 30시간 정도 걸려서, 아마 내일 자정 넘어 학습이 끝날 것 같은데, 이젠 전략을 일단 학습을 돌려 놓고 구현을 열심히 해보는 방향성으로 잡았다.
    • 강 모 캠퍼님께서 제안해주신 학습 파이프라인 개선안도 기대가 된다.

다음에 할 일

  • GIGACHAD 구현
  • 학습 파이프라인 개선 돕기
  • feature extract를 미리 해보기 등