오늘 한 일

  • Wrap-up report 작성
    • 생각보다 고된 작업이었다.
    • 뭔가 예쁘고 깔끔하게 쓰고 싶은데 성에 안차는 기분이 들었다… 일단 다 쓰긴 해서 주말을 이용해서 한번 더 보고 싶긴 하다.
    • README.md 파일도 한번 고쳐보고 싶다.
  • 스페셜 피어세션
    • 도움이 많이 된 것 같다.
    • 다들 추석에는 좀 저조했던 것과 강의를 보고 진행하려고 하는데 잘 안됐다고 하셨다.
      • 특히 6조는 하고 싶은 걸 다 하자는 기조가 되게 부러웠다.
        • 나도 하고 싶은 걸 다 해보긴 했지만, 사실 하고 싶은 게 많이 없었다.
        • streamlit이라든지 LoRA라든지 되게 많을 걸 시도해보신 걸 보고 나도 꽤 자극을 받았다.
        • 내가 혹시 말로만 ‘성장’을 주장했던 것이 아닌지 돌이켜 보게 되는 발표였다.
        • 발표를 다시 한번 보는 것도 좋을 것 같다. 여러므로 지향하기 좋은 목표를 갖고 계셨던 것 같다.
      • 마스터클래스
    • 역시나 유익한 시간이었다.
    • 다른 조들이 프로젝트를 어떻게 진행했는지 발표하는 걸 보는 시간을 가질 수 있었다.
      • 6조는 위에서 좀 얘기했지만 덧붙이자면
        • optuna도 써봤으면 좋았을 것 같기도 하고…
        • 앙상블 방법 중 Soft voting: XGBoost, LightGBM, Linear Regression 등
        • bertviz 시각화 귀찮아서 안했는데 하신 게 대단한 것 같다.
      • 16조 발표
        • 훈련용 데이터셋을 눈으로 직접 보면서 분석하셨다고 한다.
          • 어떻게 이런 생각을… 근데 당연히 이렇게 하는 게 맞는데 우리가 너무 안일했던 것 같다…
    • 피드백
    • 경쟁력이 좋은 데이터: 똑같은 데이터 뻥튀기 보다는 boundary 근처의 데이터?
    • 원문 단위로 분석하는 게 아니라 token 단위로 분석해보는 것
      • ex. <UNK> 토큰이 얼마나 줄었는지도 좀 유의미한 결과가 아닐까?
    • 데이터 증강, 전처리 방법 뿐만 아니라 결과물에 대한 분석도 굉장히 중요하다.