오늘 한 일
- TF-IDF를 이용한 Sparse Retrieval 성능 측정
- 노트북 파일로 간단하게 성능을 측정해봤다.
- 1개의 문서만 retrieval 할 때에는 대충 25%였다.
- 5개 문서 정도 retrieval해야 50% 정도 나온다.
- 100개 문서를 retrieval해도 찾을 수 없는 문서가 13% 정도 있다.
- 확인해보니 질문 자체가 지문과 긴밀히 연관되어 있어서 검색이 잘 안되는 것 같다.
- 추후 Dense Retrieval를 이용할 때는 이런 데이터는 제거하고 학습을 해야할 것 같다.
<UNK> 토큰 조사: 다음과 같은 케이스에서 주로 발견되는듯 하다.
- 주로 익숙하지 않은 언어의 인명
- 영어나 한국어가 아닌 언어 (ex. 한자, 일본어, 러시아어 등)
\\n과 같은 특수 문자 등
- 오피스아워
- 이미 시도해보고 있는 방법론도 많이 있지만, 꽤 도움이 되는 이야기가 많았다.
- 말씀하신 것 중에서 추가로 해보고 싶은 것은 LLM을 이용한 데이터 증강 정도?
- 어려울 것이라고 말씀하셔서 좀 쫄리긴 한데 한번 알아보면 좋을 것 같다.
- 생각보다 오늘 한 게 많이 없다…
- 꽤 집중을 못했을지도 모르겠다.
- 운동도 쉬고, 독서도 잘 안하는 중이라… 정상 궤도로 좀 돌려놔야 할 것 같다.
- streamlit에서
<UNK> 토큰을 표시해주는 작업을 하고 싶었는데 생각보다 복잡할 것 같아서 머릿속으로 좀 고민해보다가 시간을 다 보낸 게 큰 것 같다.
다음에 할 일
- streamlit 좀 더 꾸미기?
- 뭔가 하는 게 프로젝트 자체에 크게 도움 안되고 자기만족용인 것 같아서 더 하고 있는 게 맞는지 의문이 든다.
- LLM을 이용한 데이터 증강 공부해보기
- 다른 건 팀원들이 이미 다 잡고 있어서 내가 뭘 해야 할지 살짝 애매한 것 같다.
- 일단 지금 너무 졸려서 이 정도만 서야 겠다.