IT

tjb

"영상 속 '딱 그 순간' 찾아내는 AI 기술"…KAIST, 세계 1위

기사입력
2025-11-28 오전 10:13
최종수정
2025-11-28 오전 10:13
조회수
1
  • 폰트 확대
  • 폰트 축소
  • 기사 내용 프린트
  • 기사 공유하기
KAIST 전산학부 윤성의 교수팀이 이화여대 노준혁 교수 연구팀과 공동 연구를 통해, 세계적 컴퓨터 비전 학회 ICCV 2025에서 열린 인지 테스트 챌린지의 영상 근거 기반 질의응답 트랙에서 1위를 차지했습니다.

구글 딥마인드 이번 인지 테스트 대회는 영상·음성·텍스트 등 다양한 정보를 종합적으로 이해하는 멀티모달 AI의 인지·추론 능력을 평가합니다.

특히 "카메라가 다른 곳을 비추는 사이 사라진 물체는 무엇인가요?" 같은 질문에 대해, AI가 언어 중심 편향에서 벗어나 실제 영상 근거를 기반으로 답을 내리는지가 핵심 평가 요소입니다.

연구팀은 영상 전체를 무작정 분석하는 기존 방식 대신, AI가 먼저 정답에 꼭 필요한 결정적 장면을 찾아내도록 만드는 새로운 기술 'CORTEX'를 개발했습니다.

이 시스템은 세 단계로 작동합니다.

먼저 추론 AI가 질문에 답하기 위해 봐야 할 딱 그 순간 후보를 찾아내고 이어 객체 위치 인식 모델(Molmo-7B)이 해당 시점 화면 속 사람·차·사물의 정확한 위치를 파악합니다.

마지막으로 추적 모델이 이 장면을 기준으로 앞뒤 시간대의 객체 움직임을 정밀 추적해 가려짐이나 초반 오판을 줄입니다.

즉, 핵심 장면 한 컷을 정확히 짚고, 그 장면을 중심으로 정답 근거를 추적하는 방식으로 영상 속 실제 상황을 따라가도록 만든 것입니다.

KAIST팀은 23개팀이 참여한 이번 트랙에서 고차 추적 정확도(HOTA) 지표에서 0.4968점을 기록해 2위인 미국 콜럼비아대(0.4304점)를 큰 격차로 앞서며 1위를 차지했습니다.

이는 전년도 우승 기록(0.2704점)보다 약 두 배에 높은 성과입니다.

연구팀은 이번 기술이 자율주행차의 위험 상황 인지, 로봇의 주변 상황 이해, 보안·감시 영상에서의 중요 장면 자동 탐지, 미디어 속 인물·사물 행동 추적 등 다양한 분야에 활용될 수 있을 것으로 내다보고 있습니다.

특히 시간에 따라 변하는 객체 행동을 정확히 짚어내는 능력은 향후 AI의 실제 현장 적용을 크게 확장할 핵심 기술로 기대됩니다.

이번 연구 성과는 ICCV 2025, 3rd Perception Test Challenge 학회에서 10월 19일 발표됐습니다.

TJB 대전방송
  • 0

  • 0

댓글 (0)
댓글 서비스는 로그인 이후 사용가능합니다.
  • 0 / 300

  • 취소 댓글등록
    • 최신순
    • 공감순

    댓글이 없습니다.

    첫번째 댓글을 남겨주세요.

    신고팝업 닫기

    신고사유

    • 취소

    행사/축제

    이벤트 페이지 이동

    서울특별시

    날씨
    2021.01.11 (월) -14.5
    • 날씨 -16
    • 날씨 -16
    • 날씨 -16
    • 날씨 -16

    언론사 바로가기

    언론사별 인기뉴스