근데 feature를 다 뽑고 나면 용량이 대충 1400GB보다 더 많아지는 것으로 예상된다.
그래서 생각해본 방법이 Q-Former에서 cross attention으로 들어가는 speech embedding이 window 단위로 묶여서 들어오는데, 이걸 window 단위에서 묶을 때 그냥 average pooling을 해버려서 데이터의 크기를 크게 줄여보는 것이다.
대신 그러면 성능이 크게 떨어질 것 같긴 한데, 그건 Q-Former에 들어가는 query의 수를 좀 늘리면 어느 정도 해결이 되지 않을까 싶었다.
근데 팀원들은 별로 잘 안될 것 같다고 한다…. 나도 성능상으로는 별로 안 좋아보이긴하지만,
프로젝트 이모저모
DeepSeek R1이 나왔으니 이걸 한번 써보자는 의견이 있었다. 나쁘지 않은 것 같다.
챗봇도 써봤다. 좀 느리긴 한데, 무료로 GPT-o1 쓸 수 있는 느낌이라 나쁘지 않은 것 같다.
stage1 학습을 모두 마친 Llama 1B 모델을 제출해봤는데 ASR은 폼이 어느 정도 괜찮게 나오는 것 같다.
다만, AAC는 데이터가 부족한지 퍼포먼스가 잘 안나와서 stage2까지 해봐야 될 것 같다.
stage2까지 학습하는데도 잘 안되면 데이터 증강 진지하게 고려해봐야 할 듯
다음에 할 일
설날이라 다음 개인 회고는 일주일 뒤
근데 또 설날이라고 퍼지면 해커톤이 망할 수 있으므로 어느 정도 긴장감을 갖고 날마다 꾸준히 뭘 해야하긴 할 듯