오늘 한 일

GIGACHAD 처형식

뭔가 싶었지만, 일단 학습을 다시 시켜보는 게 나을 것 같아서 다시 학습을 하려고 했는데…
다른 팀원분이 이렇게 된 거 중간 체크포인트로 성능을 좀 확인해보는 것 어떠냐고 제안을 주셨다.
30 epochs 중 9 epochs 정도만 돌아간 상태여서 이를 제출해봤는데 성능이 좀 애매했지만, 그래도 더 돌려보면 나쁘지 않을 것 같다고 생각했다.

진짜 오랫동안(거의 5시간?), 코드마다 시간이 얼마나 걸리는지 확인하면서 어떤 부분의 코드가 병목인지 확인을 해보았다.
그런데 진짜 어이없는 부분에서 더 시간이 오래 걸리는 것을 확인할 수 있었다.
- 같은 tensor를 to('cuda')를 이용해서 GPU로 옮기는 부분이 SALMONN에 비해 GIGACHAD가 10배 느렸다…!
코드 자체가 느리게 동작한다고 보기엔 똑같은 코드에서 걸리는 시간이 달랐기 때문에 도대체 뭐가 문제인지… 팀원들 사이에서 의견을 긴 시간 주고 받았다.
그러다가 nvitop으로 GIGACHAD가 GPU utilization 값이 MAX를 찍는 것을 확인할 수 있었다.

결과적으로는 특정 코드가 느리게 동작한다기 보다는 GPU를 이미 최대로 활용하고 있어서 전체적으로 늘어나는 동작 시간이 일종의 상수로 작용해서, 코드를 수정해도 큰 의미가 없다는 것을 알 수 있었다.
- time.sleep(1)를 같은 코드 실행 전에 삽입하여, GPU 활용도를 낮춘 상태에서 코드가 동작될 때는 둘 다 빠르게 동작한다는 걸 확인할 수 있었다.
SALMONN에서 병목이라고 생각했던 BEATs도 GPU 활용도를 낮춘 상태에서 동작되게 하면 실행 시간이 빨라서, GIGACHAD나 도찐개찐이지 않을까하는 결론을 내렸고…
그렇게 GIGACHAD는 폐기되었다.