📺

06. 대규모 Multimodal AI모델을 이용한 영상 검색 시스템

분야

Generative AI (Application)

Video/Image Processing

세부 설명

■ 연구 내용 - 대규모 AI 모델을 이용하여 영상(비디오) 데이터를 분석하고, 분석 결과를 활용해 검색 시스템을 만듭니다. ■ 연구 목적 - 영상 검색 시스템에 AI를 활용할 수 있는 획기적인 방안을 찾아내고, 실제 서비스에 활용할 수 있는 가능성을 발굴합니다. ■ 활용 계획 - 실시간 관제 시스템의 검색 기능으로 추가하여 사용자들에게 편의성을 제공합니다. ■ 관련 경험/역량 - 컴퓨터 비전, 자연어 처리, 멀티모달 AI 알고리즘 연구 및 기타 개발 경험

과제 번호

01 멘토 소개

김범준

•

GST Vision R&D Security AI 개발팀

•

실시간 비디오 분석 파이프라인 개발

•

Backend 개발

류도훈

•

GST Vision R&D Security AI 개발팀

•

Vision AI 알고리즘 개발

•

Backend 개발

02 프로젝트 소개

저희가 개발하는 실시간 관제 시스템은 우리의 일상에서 발생하는 영상(비디오)을 기록하고, 사람이나 차량과 같은 객체들의 다양한 속성을 제공합니다. 이러한 정보들은 매일 같이 쌓이게 되는데요, 저희는 LLM, Multimodal AI 기술의 발전이 현실에서 어떻게 활용할 수 있을지 고민하고, 이를 통해 데이터의 새로운 가치를 발굴하고자 합니다

제안 배경

•

LLM의 발전

◦

작년 그리고 올해 LLM은 눈부신 발전을 이루었습니다. 또한 on-device향 LLM모델이 계속 오픈소스로 공개 되고 있고, 많은 기업들은 기존 초고성능의 인프라 대신 소형 기기나 적절한 성능과 가격을 가진 서버에 이를 탑재 하려 하고 있습니다. 

◦

LLM은 학습된 방대한 지식을 바탕으로 다양한 문제에 대해 꽤 높은 수준의 답을 도출해내고 있으며 많은 기업들이 이를 기존의 서비스와 엮어 사용자에게 제공하고자 노력 중입니다. 

•

우리가 하고있는 영상 분석 서비스

◦

우리 팀은 AI Camera, 분석 서버등을 이용하여 실시간으로 들어오는 영상을 AI모델을 통해 분석하고, 다양한 객체의 속성이나 이벤트를 사용자에게 제공하는 분석 모듈을 개발하고 있습니다. 

◦

실시간 비디오 분석을 통해 사람, 차량 등 기본적인 속성 부터 성별, 연령, 차종 등의 세부적인 속성 및 행동인식, 화재, 추락과 같은 분석을 제공하고 있습니다. 또한 침입, 배회, 쓰레기 투기 등 다양한 이벤트를 분석하여 제공합니다. 

◦

현재 한국 내 공공 부분에만 수백만대 이상의 카메라가 동작 하고 있고, 이러한 카메라들에 적용 되는 AI분석 모듈도 날로 발전을 거듭하고 있습니다. 카메라가 많아 질수록 이를 관리하는 관제사도 많이 필요하게 되며, 관제를 도와줄 수 있는 AI분석 모듈에 대한 기대 성능은 매 해마다 새로운 챌린지를 받고 있습니다. 

•

데이터를 이용해 만드는 데이터의 중요성 

◦

영상 분석 모듈을 통해 얻을 수 있는 정보는 사용 되는 모델에 따라 제한 됩니다. 또한 추론의 결과를 통해 각종 이벤트나 통계분석을 하는 경우도 개발자가 요구사항에 따라 미리 정의 해놓은 API를 통해서만 가능합니다. 

◦

예를 들어, 우리가 시간별로 지나가는 사람들의 Track ID를 가지고 있다고 하더라도 가장 통행량이 많은 시간 혹은 일정 시간 내 통행량을 보고 싶다면 이를 클라이언트 UI와 API에 반영 해야만 볼 수 있습니다. 

◦

raw data가  아무리 많다고 하더라도 사용자는 미리 정의 해놓은 형식에 따라 검색을 해서 결과를 볼 수밖에 없습니다. 하지만, 데이터를 실시간으로 직접 분석하여 결과를 도출하는 AI가 있다면 이를 가능케 할 수 있습니다. 물론 이러한 데이터 분석 AI가 활용되기 위해서는 Box, Class와 같은 전통적인 속성 외에 Scene에 대한 분석이나 Video 자체에 대한 분석 등 좋은 raw data를 뽑는 모델도 함께 연구가 되어야 한다고 생각합니다

이런 목표를 이루고 싶어요!

영상으로부터 유용하고 다양한 데이터 저장 및 추출

LLM이 잘 이해할 수 있도록 취득한 데이터 가공 

질문과 가공된 데이터를 입력하여 영상으로부터 원하는 정보를 취득

다음과 같은 프로젝트를 진행합니다

저희는 현실에서 AI 기술의 활용성을 파악하기 위해, 비디오로 부터 추출 해야하는 데이터가 무엇인지 정의하고, Database(DB)에 이를 저장하여 활용할 예정입니다. 하지만 DB, Backend, Frontend 등은 멘토가 도움을 줄 수 있습니다. 또한, 작성된 진행 방식은 저희가 가정한 하나의 예시이며, 더 좋은 방법, 더 좋은 아이디어가 있다면 언제든지 환영입니다. 꼭! 제안해주세요

비디오 검색에 필요한 작업과 데이터가 무엇일지 분석 및 연구를 진행합니다. 

•

Scene 분리

•

Classification, Segmentation, Detection, Scene graph

•

VQA, Caption, OCR, GPT-4

•

Representation feature vector 등 정보 추출

예시(왼쪽 화살표 Click!)

데이터를 추출하고 이를 DB에 적재합니다.

DB로 부터 데이터 추출 및 LLM에 활용할 수 있게 가공합니다.

•

LLM의 Prompt로 사용하기 위해 연구가 필요합니다.

예시(Click!)

질문, 가공된 데이터를 LLM에 입력하고 원하는 정보를 제공 받습니다

•

추론 모델을 선택하고

•

전체 영상 프레임을 추론하는 것은 불가능하기 때문에, 이 과정도 연구가 필요합니다.

•

영상을 Scene별 또는 시간대별로 분석하여 하나의 긴 텍스트로 저장해 놓을 수도 있습니다.

•

텍스트가 아닌 Vector Feature로 저장해놓거나, 이를 텍스트와 함께 활용할 수도 있습니다.

결국, AI 모델과 기존 정보를 조합하여 비디오를 잘 표현하고 이를 Prompt로 활용해 LLM으로 부터 비디오 검색/분석 결과를 얻어내는 것이 이 프로젝트의 방향성입니다.

저희가 작성한 내용과 무관하게, 더 좋은 방법과 아이디어가 있다면 언제든지 환영입니다!

이미지 분석이 아닌 비디오를 분석하고자 합니다.

예시)

비가오는 밤에 촬영된 영상을 찾아줘 (영상 간 검색)

이 영상에서 주황색 상의를 입은 남성이 지나간 장면을 추적해줘 (영상 내 검색)

이 영상에서 3:00 ~ 5:00 분 사이에 지나간 사람들의 성비 분포는 어떻게 돼? (영상 분석)

03 이런 Fellows를 찾아요!

•

알고리즘 성능의 단순 개선 보다, AI를 현실에 어떻게 녹여낼지 고민하시는 분! 

•

끊임 없는 고민과 새롭고 창의적인 방향성을 찾아가고자 하는 의지가 있으신 분! 

•

저희와 함께 고민하고 서로의 의견을 자유롭게 공유할 수 있으신 분! 

우대 경험

•

컴퓨터 비전, 자연어 처리, 멀티모달 등 AI 기술에 대한 이해와 경험

•

AI 알고리즘 이 외의 개발 경험 (Backend, Frontend 등)

[FAQ]

Q1. 해당 주제는 인공지능 모델을 개발하기 보다는, 실생활에 어떻게 적용할 수 있는지에 대해 초점이 맞춰져 있는 것으로 이해하였습니다. 만약 프로젝트 6번을 진행한다면, 연구를 통해 논문을 작성하는 방향 보다는 실생활에 적용 시키는 방향으로 진행이 되는 것인가요?

A1. 실용적인 방향이 포함되어야 하는 것은 맞습니다. 다만 두가지를 함께 고려해야 합니다.예를 들어,1. 수백억 개의 파라미터와 수조개의 데이터로 이미 학습되어 공급되고 있는 초거대 모델의 실용적인 활용방안. 2. 비디오 데이터, 특히 영상관제 프로젝트에서 전통적인 메타데이터에 추가로 의미 있는 로우 데이터를 획득할 수 있는 아이디어.

만약 위 두가지를 주요한 주제로 생각한다면,초거대 모델의 활용이나 비디오 자체에 대한 분석 모두 학술적인 내용을 포함할 수도, 실용적인 내용을 포함할 수 있는 주제입니다.프로젝트의 기본적인 컨셉을 생각해 봤을 때 only 학술적 이거나 only 실용적인 방향으로만 진행해서 의미 있는 결과를 내는 것은 쉽지 않아 보입니다.

두 측면에 대해 잘 고민해 보셔야 하구요, 짧은 기간과 제한된 리소스로 어디까지 할 수 있을까 도 고려되어야 할 부분입니다. 무엇에 중점을 둘 지는 지원자분들의 역량이나 관심에 따라 달라질 수 있으며 원하시는 방향으로 Ideation 해보시면 됩니다

Q2. SKT 관제 시스템에서 사용되는 데이터가 제공되는 것인지, 아니면 다른 벤치마크 데이터 세트를 통해 검색 시스템 및 데이터베이스(DB)를 구축하는 것인가요? A2. 현재는 데이터 보안 등으로 내부 영상 데이터를 제공 드리기는 어려운 상황입니다만, 향후 펠로우로 직접 활동 시에는 협의 및 검토 가능성이 있습니다. 우선 현재로는, 시중의 벤치마크 데이터셋을 이용해 시스템 및 DB 구축하고 있습니다.

Q3. 해당 과제에 대한 연구 진행을 위해 특정 사용 시나리오를 가정해서 접근해도 되는지 궁금합니다. A3. 특정 사용 시나리오를 가정한다는 뜻이 모호해서 확답을 드리기가 애매하네요. 하지만, 자유롭고 창의적이게 접근하시는 것은 항상 환영입니다. 거대 모델들의 실용적인 활용 방안과 비디오 영상 데이터 + 영상 데이터로 의미 있는 값을 추출할 수 있는 아이디어가 포함되어 있다면 어떤 아이디어도 좋습니다.

Q4. 영상으로 영상을 검색하는 기능까지 필요한 것인지 궁금합니다. 예를 들면, 특정 영상과 유사한 영상임을 찾고자 할 때 필요한 기능이 들어가야 할지 궁금합니다.

A4. 특정한 기능이 꼭 들어가야 할 필요는 없습니다. 프로젝트를 발전시켜 나가는 과정에서 해당 기능이 유용하고 필요하다고 판단되면 추가하시면 됩니다. Ideation에 있어서는 얼마든지 자유롭게 생각해주세요.

Q5. 영상 내 소리 데이터가 같이 쓰이는 궁금합니다.

A5. 소리 데이터는 없습니다.

Q6. 연구 과제 안내 페이지에서 아래와 같은 예시를 주셨는데, 각 예시가 순차적으로 이어지는 것인지 여쭙고 싶습니다. 즉, '영상 간 검색' - '영상 내 검색' - '영상 분석'이 연속해서 순차적으로 이어지는 것인지에 대해 질문 드립니다.

비가오는 밤에 촬영된 영상을 찾아줘 (영상 간 검색)

이 영상에서 주황색 상의를 입은 남성이 지나간 장면을 추적해줘 (영상 내 검색)

이 영상에서 3:00 ~ 5:00 분 사이에 지나간 사람들의 성비 분포는 어떻게 돼? (영상 분석)

A6. 기본적으로 각 기능은 독립적으로 작동해야 합니다. 또한, 안내페이지에 작성된 예시는, 말 그대로 예시이므로 더 좋은 아이디어가 있다면 자유롭게 추가하셔도 됩니다!