04. LLM Performance Evaluation

분야

Generative AI (Application)

Generative AI (Model)

세부 설명

■ 연구 내용 - 대규모 언어모델(LLM)의 성능을 정량적으로 측정하고 평가하기 위한 포괄적인 연구개발 - 임베딩 모델 및 LLM의 효율성과 정확성을 측정할 수 있는 벤치마크 데이터셋 개발 - LLM의 출력과 기준 답안 간의 유사성을 비교/측정할 수 있는 다양한 방법론 연구 - LLM 성능을 체계적으로 평가할 수 있는 평가 애플리케이션 개발 ■ 연구 목적 - LLM이 다양한 언어처리 작업에서 얼마나 효과적으로 작동하는지 파악 - LLM의 강점과 약점을 식별하고 모델 개선 방향 제시 - 개발된 벤치마크 데이터셋과 평가도구를 학계/산업계에서 LLM 발전의 기준점으로 활용 - 더욱 정교하고 신뢰성 있는 언어모델 개발 촉진 ■ 활용 계획 - 연구개발된 벤치마크 데이터셋과 평가도구를 공개하여 다양한 분야에서 활용 - LLM 모델 개선 및 새로운 모델 개발 시 성능 검증에 활용 - 언어모델 평가의 표준 지침 및 모범 사례로 제시 ■ 관련 경험/역량 - 자연어처리, 데이터 가공 및 분석 경험 - 프로그래밍 및 애플리케이션 개발 능력 - 언어모델 및 딥러닝 분야 지식 - 데이터셋 구축 및 관리 경험 - 효과적인 평가 지표 및 방법론 설계 역량

과제 번호

01 멘토 소개

이준학

•

AI Enterprise Pre-Sales팀 소속

•

현재 LLM 기술검토 및 사업발굴

•

약 11년간 Industry 영역 Data Analysis & Science 프로젝트 및 과제 수행

•

AI Fellowship 4기 멘토

윤대훈

•

AI Enterprise팀 개발팀 소속

•

개발 / 분석 15 년차

◦

Backend Engineer ( 6년 ) , ML Engineer ( 8년 )

◦

주로 Industrial 영역 프로젝트 수행 ( 반도체, 철도, 항만 등 )

•

카페 알바 2개월 (커피 잘탐) 

•

여행을 좋아함 / 술은 못마시지만 좋아함

김의연

•

AI Enterprise팀 개발팀 2024 JT 

•

보이저엑스 ML Engineer 인턴

•

IEEE Trans, AAAI Paper Accepted

정지헌

•

AI Enterprise팀 개발팀 2024 JT 

•

Publications

◦

4 SCI(E) papers

◦

2 Top-tier conferences

•

Lunit AI Research 인턴

•

AI Fellowship 4기 멘티, 우수상

저희는 생성형 모델을 평가할 수 있는 연구를 진행해보고자 합니다.

[ Background ]

많은 생성형 모델들이 세상에 등장하고 있고, 의료, 금융, 교육, 예술과 같은 많은 산업에 활용이 되고 있습니다. 하지만 그런 모델들끼리 평가하는 것이 생각보다 쉽지는 않아요.

LLM Leaderboard와 같은 평가 시스템은 모델의 성능을 순위별로 나열하여 사용자들에게 유용한 정보를 제공하지만, 이러한 순위만으로는 모델의 다양한 측면과 특정 도메인에서의 효율성을 완벽하게 반영하기 어려워요. 예를 들어, 특정 LLM이 일반적인 언어 이해에서 뛰어난 성능을 보이더라도, 의료 분야와 같은 특수한 도메인에서는 그 효과가 제한적일 수 있기 때문이에요. 그래서 저희는 생성형 모델을 좀 더 정교하게 평가하는 방법론들을 함께 연구해보고 찾아가보는 프로젝트를 진행해보고자 합니다.

[ Objective ]

저희와 함께 진행하게 될 프로젝트는 LLM 성능을 좀 더 객관적으로 평가하는 방법론을 찾아보고자 해요. 전통적인 방법들 뿐만이 아니라 다양한 방면에서 평가하는 틀을 만들어보고자 합니다. 생성모델의 성능을 정말 객관적으로 평가하는 일은 쉬운 일이 아니지만, 조금은 더 유의미한 방법들을 찾아보고자 하는 것을 목표로 하고 있어요.

︎ 저희 팀은 LLM 성능을 평가하는 평가 지표들 혹은 Domain-Specific 한 평가 지표들을 연구해 LLM의 장단점들을 파악하고 성능을 개선하는 것을 목표로 합니다. 의료, 금융, 교육과 같은 Specific한 Domain에 대해서 적용해보는 Metric도 좋아요.

︎ RAG에서의 성능 평가 혹은 Hallucination에서의 성능 평가와 같이 특정한 관점으로도 평가해 볼 수 있어요. 어떠한 지표도 괜찮다는 의미에요. 필요하다면 LLM Fine-Tuning도 경험해볼 수 있어요.

[ 우리 팀과 함께 한다면? ]

︎ LLM을 이용한 연구를 통해 새로운 기술적 도전을 경험해보실 수 있어요. 다양한 LLM을 사용해보거나 테스트를 해볼 수 있는 기회가 있습니다.

︎ 새로운 기술을 배워 실력을 키워갈 수 있어요. 현업에서 일하고 있는 실무자들과 소통하며 새로운 경험을 통해 실력 향상을 노려볼 수 있어요.

︎ 결과물이 나온다면 현업에서 비즈니스 상용화 혹은 학회 논문, 특허 출원을 통해 펠로우들의 경력에 충분히 도움이 될 수 있어요. (진짜임. )

03 이런 Fellows를 찾아요!

For Fellows

•

성실한 사람이었으면 좋겠어요. Fellowship이 생각보다 길고, 체력적으로 지칠 수도 있어요. 끝까지 함께 진행해 볼 수 있는 사람이면 좋겠어요. 

•

코드 작업에는 크게 어려움이 없었으면 좋겠어요. 기본적으로는 Python에 대한 지식과 해본 경험만 있었다면 만족합니다. 

•

LLM에 대한 경험이나 전공에 대해서는 고려 사항이 아니에요. “경험이 없는데 어떻게 하지?” 라는 생각은 안하셔도 됩니다. 열정만 있으면 됩니다. 

FAQ (Update 중)

Q1. 기존의 LLM 평가 시스템을 Domain-specific한 평가를 잘하는 방법(특정 도메인에서의 추론 능력, 상식 추론 등을 잘 하는 방법) 을 찾는 것인지, 아니면 평가 시스템의 평가지표 자체가 Domain-Specific한 것(예: 의료 분야의 암 전이 예측 능력 평가, 법률 분야의 판결 요약 능력 평가)을 연구하는 것인지 궁금해요!

A1. 기본 과제는 특정 Domain에 국한되지 않는 범용적인 평가 방법 연구 및 개발입니다. 과제가 시작되면 참여 인원의 관심 및 전문 분야를 반영하여 특정 Domain에 특화된 평가 방법 연구가 추가 될 예정입니다.