오늘 한 일

  • 두번째 프로젝트
    • 기계 독해(MRC, Machine Reading Comprehension)를 수행해야 한다.
    • 학습은 Context와 Query가 함께 주어지지만, 추론시에는 Query만 주어진다.
    • KLUE-MRC 데이터셋을 사용하거나, 해당 데이터셋을 이용하여 학습된 모델도 사용하는 것은 금지된다.
  • 강의 1-3강 보기
    • 2강 실습 중에 적혀있는 코드가 우리 baseline 코드랑 겹치는 부분이 많은 것 같아서 좀 더 유심히 보아야 할 것 같다.
  • 피어세션
    • 저번 프로젝트의 실패를 답습하지 않기 위해서 함께 베이스라인 코드를 리뷰하는 시간을 갖도록 했다.
    • 먼저 같이 AI Stages 홈페이지에 있는 프로젝트의 개요를 함께 읽어보고 코드도 함께 보았다.
    • 근데 데이터셋이 저번 프로젝트와 다르게 csv 파일이 아니고 바이너리 파일이라 코드를 실행해 볼 수 있는 구조였다.
      • 데이터셋을 보는 방법을 알고 싶어서 코드를 보니 저번 프로젝트와는 사뭇 다른 코드(일단 PyTorch Lightning이 아니었다.)인 것 같아서 해석에 좀 애를 먹을 것 같다.
      • 일단 어떻게든 데이터셋을 확인해서 훈련 데이터셋이 어떤 식으로 이루어져 있는지 확인했다.
    • 코드가 조금 어렵긴 하지만 실습에서 다루고 있는 코드랑 비슷한 면이 있는 것 같아서 이번에는 강의를 보는 것도 어느 정도 프로젝트에 도움이 될 것 같다는 생각을 했다.
    • 그리고 원래 쓰던 WandB 팀이 곧 만료될 것 같아서 다른 캠퍼님이 만든 팀으로 옮겼다.

다음에 할 일

  • 강의가 총 10개라 이론상 3일이면 다 볼 수 있지 않을까 하는 계산을 해봤다.
    • 그래서 내일은 3개의 강의를 더 보고, 그 다음 날에는 4개의 강의를 더 봐서 빠르게 마무리 하면 좋을 것 같다.
  • 내일 새로운 멘토님과의 첫 멘토링 세션이 있는 날이다.
    • 어떤 분이실지 기대가 된다.
    • 우리팀의 조용한 분위기를 잘 적응하실 수 있을지 모르겠다… ㅎㅎ.
    • 왠지 자기소개를 해야 할 것 같으니 간단히 준비해야 할 것 같다.
      • ex. 왜 부캠에 왔는지, 왜 NLP인지, 부캠을 통해 이루고 싶은 게 무엇인지 등?
  • 마스터클래스도 있다.
    • 데이터 증강 및 전처리 방법이나 앙상블 방법이 중요했던 이전 프로젝트와 다르게 무엇이 중요할지 감이 잘 안 잡혀서 그에 대한 사전 질문을 하고 싶다.