오늘 한 일
프로젝트
- CoT를 위해 OpenAI API를 사용하여 데이터셋을 열심히 만들어보았다.
- 데이터셋을 아래와 같은 세 단계로 나누어 실험을 해보았다.
- 문제 지문과 정답을 모두 준 상태에서 해설을 쓰도록 실험
- 잘 써주긴 한다. 근데 살짝 할루시네이션이 있다.
- 이건 큰 모델 쓰면 해결될 것 같긴 한데… 돈이 없어서…
- 근데 정답을 알고 해설을 쓰니까, 아예 틀린 답을 정답이라고 줘도 억지로 해설을 쓰는 문제가 있지 않을까 싶어서 실험을 더 해봤다.
- 문제 지문만 보고 해설과 정답을 쓰도록 실험
- 10개만 돌려봤는데 정답률 20% 나왔다….
- 별로 못하는 것 같아서 폐기하고 1번 실험을 변형해보고자 했다.
- 문제 지문과 정답을 모두 준 상태에서 해설을 쓰도록 실험 (근데, 해설을 쓸 때 최대한 정답을 언급하지 않게끔 하도록 조정)
- 프롬프트를 이용해서 해설에 정답을 최대한 언급하지 않도록 조정해보았다.
- 근데, 이러니까 아예 틀린 답을 정답이라고 말해버린다….
- 결과적으로 실험 1로 데이터셋을 만들어보긴 했는데… 만든 추론 데이터에 할루시네이션이 좀 있는 것 같아서, 이 방법을 계속해보려면 비싼 모델을 쓰는 게 맞을 것 같다.
- 놓아줄 것이라면 역사적 지식 같은 걸 모델에 먹여서 좀 잘할 수 있도록 하게 하거나 RAG를 쓰는 방법을 생각해봐야 할 것 같다.
다음에 할 일
- 비싼 모델 쓰기?
- RAG나 역사적 지식 같은 걸 먹이기 → 이걸 할려면 관련 corpus가 또 있어야 할 듯?
- 논문보기: Zero-shot Reasoners