오늘 한 일

  • TF-IDF를 이용한 Sparse Retrieval 성능 측정
    • 노트북 파일로 간단하게 성능을 측정해봤다.
    • 1개의 문서만 retrieval 할 때에는 대충 25%였다.
      • 5개 문서 정도 retrieval해야 50% 정도 나온다.
    • 100개 문서를 retrieval해도 찾을 수 없는 문서가 13% 정도 있다.
      • 확인해보니 질문 자체가 지문과 긴밀히 연관되어 있어서 검색이 잘 안되는 것 같다.
      • 추후 Dense Retrieval를 이용할 때는 이런 데이터는 제거하고 학습을 해야할 것 같다.
  • <UNK> 토큰 조사: 다음과 같은 케이스에서 주로 발견되는듯 하다.
    • 주로 익숙하지 않은 언어의 인명
    • 영어나 한국어가 아닌 언어 (ex. 한자, 일본어, 러시아어 등)
    • \\n과 같은 특수 문자 등
  • 오피스아워
    • 이미 시도해보고 있는 방법론도 많이 있지만, 꽤 도움이 되는 이야기가 많았다.
    • 말씀하신 것 중에서 추가로 해보고 싶은 것은 LLM을 이용한 데이터 증강 정도?
      • 어려울 것이라고 말씀하셔서 좀 쫄리긴 한데 한번 알아보면 좋을 것 같다.
  • 생각보다 오늘 한 게 많이 없다…
    • 꽤 집중을 못했을지도 모르겠다.
    • 운동도 쉬고, 독서도 잘 안하는 중이라… 정상 궤도로 좀 돌려놔야 할 것 같다.
    • streamlit에서 <UNK> 토큰을 표시해주는 작업을 하고 싶었는데 생각보다 복잡할 것 같아서 머릿속으로 좀 고민해보다가 시간을 다 보낸 게 큰 것 같다.

다음에 할 일

  • streamlit 좀 더 꾸미기?
    • 뭔가 하는 게 프로젝트 자체에 크게 도움 안되고 자기만족용인 것 같아서 더 하고 있는 게 맞는지 의문이 든다.
  • LLM을 이용한 데이터 증강 공부해보기
  • 다른 건 팀원들이 이미 다 잡고 있어서 내가 뭘 해야 할지 살짝 애매한 것 같다.
  • 일단 지금 너무 졸려서 이 정도만 서야 겠다.