오늘 한 일

Post-Training Pruning

  • 어제 본 레포를 기반으로 post-training pruning이라는 키워드를 이용해서 논문을 좀 검색해보고, 괜찮아 보이는 논문들을 찾아보았다.
  • 그거랑 어제 멘토링에서 말씀 주셨던 1-bit LLM에 대해서도 알아보기 위해 논문을 찾아보았고, 다른 팀원들은 논문을 읽어보는 시간을 가지도록 하였다.
  • 나는 논문을 기반으로 한 라이브러리를 적용하기 위한 환경을 만들기 위해 베이스라인 코드를 레포지토리에 정리해서 올리는 역학을 맡았다.

Selenium 코드 공개

  • 아직 데이터를 다 받지 못하고 고통받는 다른 캠퍼들이 여럿 보여서 저번에 완성한 selenium 코드를 공개하기로 했다.
  • 근데 아마 지금 다 데이터를 받으셨을 것 같아서 큰 도움은 되지는 않을 것 같긴 한데, 이모지도 많이 달리고 댓글로 감사하다고 해주신 캠퍼분들도 계셔서 뿌듯했다.

Q-Former 코드 분석 정리

  • 거의 다 썼다! (2개 단락만 남았다.)
  • 코드 단위로 Bert를 분석할 수 있었던 좋은 경험이었다.

LLaMA 1B 훈련

  • 일단 8000개의 데이터로만 2 epoch을 돌렸는데도 epoch 당 1시간이 걸리는 걸 확인할 수 있었다….
  • 다 올리고 학습하려면 아마 힘든 싸움이 되지 않을까 생각된다….
  • 이건 진짜 학습하는 것 보다 post-training pruning 이나 quantization으로 노선을 트는 게 맞는 것 같다.

다음에 할 일

  • Q-Former 정리 마무리
  • Issue에 Task 등록
  • pre-commit 적용
  • vllm 읽어 보기