오늘 한 일

슬기로운 운동생활

  • 아 오늘 엄청 추웠다.
  • 그래도 아침에 일찍 일어났으니까 뛰기 시작했는데 한 3분 뛰니까 공사중이길래 바로 포기하고 돌아왔다.

프로젝트

  • 0.7xxx 클럽이 생기기 시작했다.
    • 아마 좋은 모델이 존재하는 것 같다. 어떤 방법론이든 적용하는데 이렇게 빨리 하기든 어려웠을 것 같다는 게 내 생각이다.
  • 내가 한 일
    • gpt-4o-mini로 데이터를 뽑으니까 할루시에이션이 많길래 gpt-4o로 한번 뽑아봤다.
      • 할루시에이션이 없는 것 같긴 한데 프롬프트에 한글로 쓰라는 말을 빼니까 영어로 뽑아서 문제가 좀 있을 것 같다….
    • 그리고 기존의 모델 학습 루틴을 이용해서 간단하게 학습을 돌려보려고 했는데, 메모리가 터지는 문제가 발생했다…!
      • 아마 해설 뽑은 게 너무 길어서 그런 문제가 생기는 것 같다. → 모델 크기는 이미 작아서 데이터 쪽에서 좀 줄여봐야겠다. (이미 배치 사이즈도 1인데 ㅠㅠ)
    • 써놓고 보니까 진짜 한 게 없네… 내일은 할 일을 딱딱 정해놓고 시간 제한을 걸고 열심히 해봐야겠다.

두근두근 논문리뷰 대작전

  • 멘토링에 의해서 논문을 읽기로 결정이 되었다.
  • 논문 리스트업이 되어서 각자 어떤 논문을 읽을지 고르는 시간을 가졌다.
  • 당장은 발표가 아니긴 한데, 난 T5 논문을 읽기로 하였다.
    • 그래도 논문 1회독 정도는 해둬야 QnA를 할 수 있으니께…

다음에 할 일

  • OOM 뜨는 데이터가 어떻게 생겼는지 확인하기
  • 너무 길어서 터지는 게 맞다면, 이게 어느 정도 구조가 일정한지 확인하기
    • 1. Contextual ~~, 2. Summary 뭐 이런식인 것 같던데 이런 걸 잘 뜯어서 모두 정규식에 들어오는지 확인해야 할 것 같다.
    • 그럼 좀 핵심적인 거만 골라서 나머지 버리고 그걸로만 해설에 넣어서 학습하기
  • 그리고 csv 파일로 따로 확인하는 게 너무 불편해서 이거 다 하고 (혹은 학습 돌리면서) streamlit으로 좀 EDA할 수 있게 툴을 만들어보고 싶다.
    • 결국엔 data-centric하게 해야 될 것 같다는 느낌이 든다. 모델쪽에서 바꾸려면 너무 시간이 오래걸려서…
  • 좋은 모델 찾는 건 팀원이 하고 있으니까… 0.7xx 모델이 도대체 뭘까?