오늘 한 일
오전
- PM다운 일을 진행했다.
- 그것인즉슨, Github Project를 만들고 Github Issue를 활용해서 진행중인 Task를 정의하는 것이었다.
- 앞으로는 오전 중에는 PM이 할만한 일을 좀 의식적으로 생각해서 진행해봐야겠다.
오후
- vllm을 적용해볼까 하였는데 GPU 서버가 busy한 상태라 대신 vllm 논문을 읽었다.
- vllm 원리는 생각보다 단순했다. 그냥 OS의 Paging 시스템이 적용하여 KV Cache를 관리하는 게 전부다.
- 근데 구현량이 어마어마했을 것 같다. 소스 코드도 보니까 진짜 파일도 많고 하나하나 무거워 보이더라….
- 근데 SALMONN의 inference 속도를 높이기 위해 vllm을 적용하려고 보니까, token의 id가 아닌 embedding 값을 그대로 넘기지는 못하는 것 같아서 이를 우회해야 할 것 같다: 방법
다음에 할 일
- vllm 적용
- 실험 파이프라인 좀 더 기록이 잘 남도록 변경