Our Mission
home
About us
home

03. AI기반 한국어 자막 자동 조정기술

분야
Media
세부 설명
■ 연구 내용 - 한국어 자막의 맞춤법(띄어쓰기, 오타) 검사 및 보정 - 한국어 자막의 문장이 긴 경우, 자연스러운 문장 분할 및 개행 - (Optional) 동영상의 관심영역(Region of Interest) 검출 후 최적 영역에 자막 배치 기술 - (Optional) 자막 배경색상과 대비되는 최적의 자막 색상 추천 ■ 연구 목적 - 동영상 컨텐츠에 자막 서비스 제공을 통해 사회적/기술적 가치 창출 ■ 활용 계획 - 동영상 콘텐츠의 자동 자막 생성 및 동기화 기술에 적용  - 개발된 기술에 대한 특허 출원, 논문 작성 및 상용화 예정 ■ 관련 경험/역량 - 자연어 처리 기술 개발 경험 - 딥러닝 기반 멀티미디어 분석 경험 - 최신 딥러닝 기술 동향에 대한 관심
과제 번호
03

01 멘토 소개

김동원

멀티미디어 프레임워크, 서버, 플레이어, 코덱 개발
ML기반 음원 분리(잠음제거, 목소리/악기별 분리) 기술 개발

윤종길

T map, hoppin, cyworld 개발
FLO, B tv 향 Subtitle Auto-Sync 기술 개발
Speech Recognition, Speech Synthesis 기술 개발

02 프로젝트 소개

저희는 아래와 같은 활용 계획을 가지고 이 프로젝트를 시작하고자 합니다.
ASR(Auto Speech Recognition)으로 인식된 자막 또는 Closed Caption 자막을 영상에 동기화하여 자막 서비스를 고객에게 제공하는 경우, 자막의 정확도와 가독성을 높이기 위한 자막 자동 조정 기술이 필요합니다.
한국어 콘텐츠에 대해 한국어 자막을 생성 하여 서비스 함에 있어, 인력에 의한 자막 생성보다 시간과 비용을 절약하여 생산성을 향상시키고, 아래와 같은 고객의 Pain Point를 개선하여 자동 자막 서비스의 성능 향상에 활용 할 수 있는 자막 자동 조정 기술을 적용 하고자 합니다.
인식 자막 및 Closed Caption 자막에는 맞춤법 및 오류등 틀린 부분이 있음 ◦ “어잿밤부터” -> “어제 밤부터” 맞춤법 오류 ◦ “김선생 님께서" - “김선생님께서" 띄어쓰기 오류
긴 문장을 분할 하는 경우, 문장의 가운데 부분에서 분할 되어 가독성이 떨어지거나, 발화 중 다음 문장으로 빠르게 전환 표시되어 불편한 부분이 있음. ◦ 중간 부분 분할 : “TV가 알아서 넘겨도 넘겨도 내가”                           “ 보고 싶어 했던 콘텐츠만 계속 나와" • 자연스런 분할 : “TV가 알아서 넘겨도 넘겨도”                          “내가 보고 싶어 했던 콘텐츠만 계속 나와" 
자막을 가독성있게 표시하는 방안이 필요 ◦ 한 화면에 3줄 이상의 자막이 표시되는 경우, 이를 2줄 이상 넘지 않도록 자연 스럽게 불한 하는 것이 필요 ◦ 하나의 문장이 30자 이상 한줄에 표시될 경우, 이를 자연스럽게 분할 하는 것이 필요
(Optional) 관심 영역에 자막이 표시되어 콘텐츠를 가리는 경우가 있음. (최적의 자막 위치 추천)
(Optional) 영상과 동일한 색상으로 자막이 표시되어 자막 가독성이 떨어지는 문제가 있음

03 이런 Fellows를 찾습니다

딥러닝 기반의 오디오 데이터 분석, 음성인식, 자연어 처리 등 경험이 있으신 분
최신 딥러닝 기술 동향에 관심이 많으신 분
(optional) 멀티모달(audio-visual) 로 문제를 해결하고 싶으신 분

FAQ

Q) 프로젝트에 설명된 콘텐츠는 Youtube와 같은 모바일 스트리밍 서비스 또는 TV 중 어떤 매체를 대상으로 하나요?
A) 모바일 스트리밍 서비스 및 TV 모두 대상으로 합니다. VoD에 먼저 적용 후, 처리 속도 및 성능을 고려하여 추후에는 Live 영상에 적용할 예정입니다.
Q) 자막은 ‘음성데이터의 한국어 자막으로 생성하는 것인가요?
A) 네. 맞습니다. 한국어 자막은 SK텔레콤이 보유한 기술인 음성을 한국어로 변환하는 ASR (Auto Speech Recognition)을 이용하여 변환하거나, 영상에 포함된 자막 (Closed Caption)을 이용합니다. 이러한 자막의 고유명사, 오타, 문법, 띄어쓰기 등을 검사하고 보장하는 기술을 최종 선발된 Fellow팀과 함께 진행하고자 합니다.
Q) 과제에 ‘자막 배경색상과 대비되는 최적의 자막 색상 추천’ 이라고 설명되어 있는데 과제 설명에 예시로 소개된 이미지처럼 자막 뒤 회색배경을 그대로 사용하는 것인지? 아니면 자막 배경 색상과 자막 색상 모두를 추천하는 것인지요?
A) 일반적인 자막의 색상은 흰색 또는 검은색으로 표현하고 있습니다. 예시 이미지에서는 흰색으로 자막을 표시할 경우, 자막의 양쪽 끝부분이 밝은 색상이여서 자막의 가독성이 떨어지게 되고 검은색으로 자막을 표시하는 경우, 자막의 가운데 부분이 어두운 색상이여서 마찬가지로 가독성이 떨어지게 됩니다. 이 경우 적절한 투명 회색을 자막의 배경으로 사용하여 표시 할 수 있으나, 매번 자막의 배경을 사용하는 경우 컨텐츠를 가릴 수도 있습니다. 특히 예시 이미지의 경우, 배우가 아래쪽 가운데의 스마트폰을 주시하고 있는데요 이때, 자막도 아래에 표시되고, 회색 배경도 같이 표시되어 컨텐츠의 주요한 오브젝트인 스마트폰을 가리고 있습니다. 따라서, 본 과제에서는 경우에 따라 자막의 색상을 추천하거나, 배경을 적용 추천하거나, 자막의 위치를 추천하는 기술이 필요합니다.
Q) 3번 연구 과제의 목표는 아래 2가지 중 어떤 쪽에 더 가까운 것인지 문의드립니다. (1) sk텔레콤에서 보유한 기술인 ASR을 이용해 변환한 자막이나 영상에 포함된 자막 dataset이 따로 주어지고, 주어진 dataset을 가지고 맞춤법 교정 / 문장 분할(문맥에 맞게) / 자막의 가독성 증진 (2) 주어지는 음성 data를 자막으로 변환 후 맞춤법 교정 / 문장 분할(문맥에 맞게) / 자막의 가독성 증진 (Live 영상에 적용 시에 맞춤법 교정 / 문장분할 / 자막의 가독성 증진)
A) 저희 과제의 목표는 1번에 가깝습니다. 따라서 본 과제에서 ‘인식 기술’ 고려하지 않으셔도 됩니다.