Scailing Laws

  • 모델이 크면 성능이 잘 나오는 것 너무 자명한 것 같다.
  • 그렇다면 온 팀원이 큰 모델을 올리기 위한 방법론을 찾기 위해서 서버 계속 터트리면서 라이브러리 설치를 시도해보는 것이 맞았던 걸까?
  • 애초에 시도해볼만한 방법론들이 대충 프롬프트 엔지니어링, CoT, RAG 정도 있었던 것 같은데, RAG는 몰라도 앞의 2개는 작은 모델에서는 효과가 없는 게 맞다고 한다…. (내가 볼땐 RAG도 그렇게 큰 도움은 안되는 것 같다.)
    • 근데 애초에 32B 모델을 올리는 건 상상도 못했다고 말씀하셨는데, 그럼 우리가 10B따리 모델 갖고 어떤 성취를 하시길 바라셨던 걸까? 그냥 데이터나 열심히 관리했었던 게 맞는 걸까?
      • 내가 너무 모델과 데이터를 이분법적으로 생각하고 있나? 두 개가 조화를 이뤄야 하는 게 맞나?

NLP 엔지니어가 하는일

  • 그럼 좀 근본적인 문제로 돌아가게 된다. 어차피 큰 모델 올리면 성능이 올라가는데… NLP 엔지니어가 할 일은 뭘까? 아무리 방법론 아무리 정교하게 깎고, 데이터 증강 열심히 한다고 해서 모델 크기 딸깍이면 밥상 다 엎어버리고 SOTA 찍어버리는 거 아닌가?
  • 현업의 문제라는 것은 모델의 크기를 무한정 키우거나, 유료API를 사용하는 것만으로는 해결할 수 없다는 걸 동의하지만… 그런 거 없이 성능을 올리는 거는 그냥 시드값 바꾸는 거 만큼이나 조금 올라가거나, 왜 올라가는지 해석하기 어려운 것 같다.
    • 당연히 올라야 될 것 같은 방법으로 시도해도 결국 안될 수 있는 게 이 바닥인 것 같다. 거기서 그걸 “왜 안 되지?”하며 다시 몰입할 수 있는 게 진짜 AI 엔지니어가 필요한 역량인거 아닐까?
    • 일단 나는 ‘아 왜 안돼 ㅡㅡ’ 같은 느낌이라 ㅋㅋ

작은 모델도 강하다구요

  • 오늘 마스터클래스에서 마스터님께서는, 32B 모델로 gpt-4o 같은 모델보다 수능성적이 잘 나올 수 있다는 것이 모델이 작아도 좋은 성능을 낼 수 있다는 증거라고 말씀주셨다.
  • 근데 그것도… 잘 모르겠다. 50B 모델을 올릴 수 있었으면 똑같이 학습을 한 게 32B 모델보다도 잘 나올 수 있는 건데…
  • 32B에서 1B씩 깎으면서 실험을 해보면 결국 똑같은 방법론을 적용해도 gpt-4o를 이길 수 없는 모델의 크기는 반드시 있을텐데, 그럼 그때도 작은 모델이 좋은 성능을 낼 수 있다고 할 수 있을까?
  • 절대 gpt-4o를 이길 수 없는 모델의 크기로 싸우고 있었다는 게 좀 현타가 오는 부분인 것 같다.

결론

  • 모르겠다. 그냥 요즘 이런 생각이 들어서 정리를 해봤다.
  • 우리네 인생과도 같이 그냥 너무 불확실한 거 투성이다. 별로 썩 마음에 들지는 않는다.
  • 프로젝트가 진행됨에 따라 점점 큰 모델을 사용하는데… 그에 따라서 점점 고민이 많아지는 것 같다.
  • 결국 32B 모델을 첫번째 프로젝트부터 올릴 수 있었으면 다 양학할 수 있었던 거 아닌가….