Level berikutnya: LLM as a judge. jadi yg menghitung akurasinya llm juga biar bisa menilai jawaban yang non deterministik. Referensi: - https://newsletter.pragmaticengineer.com/p/evals - https://hamel.dev/blog/posts/llm-judge/ - https://github.com/meshkovQA/Eval-ai-library