과거 동물 소리로 만들었던 공룡 울음 소리
'화면 보고 맥락 읽는 인공지능' 직접 확인해보니
◆ 영화 속 티라노 포효, 아기 코끼리였다?
1990년대 가장 많은 사랑을 받은 영화 중 하나로 꼽히는 '쥬라기 공원'(Jurassic Park). 과학적 고증에 상상을 더한 실감 나는 공룡들의 모습이 호평을 받았습니다.
그런데 영화의 감독인 스티븐 스필버그에게는 큰 고민이 하나 있었다고 합니다. 공룡들의 울음 소리를 어떻게 만들 것인가였죠.
공룡의 모습이야 이미 발견된 화석도 있고 하니 뼈대에 살을 더해 만드는 것이 어렵지는 않았지만, 아무도 들어본 적 없는 울음 소리는 전혀 다른 문제였을 겁니다.
영화 '쥬라기 공원'의 메인 음향 감독이었던 게리 라이스트롬은 훗날 한 인터뷰에서 비밀을 공개했는데요.
영화 속 무리 지어 다니는 벨로시랩터들이 소통하는 소리는 사실 짝짓기를 하는 '거북이'들의 소리였고, 티라노사우루스의 포효는 '아기 코끼리'를 포함한 여러 동물들의 소리가 합쳐진 것이라고 말이죠.
한 번도 들어본 적 없는 소리를 만들기 위해 당시 이들이 선택한 건 '대자연'이었고, 결과는 매우 성공적이었다고 할 수 있겠네요.
◆ 화면 이해하고 소리까지 알아서 만든다?
영화나 게임의 완성도를 높이는 건 수많은 효과음입니다. 마치 실제 그 현장에서 나는 듯한 소리를 최대한 재현해야 생생함과 몰입도가 높아지기 때문입니다.
이런 효과음들을 '알아서 만들어내는' 인공지능이 등장했습니다.
KAIST와 POSTECH, 소니 AI 공동 연구진이 수개월의 연구 끝에 만들어 낸 이 기술의 이름은 '파바스'(PAVAS·Physics-Aware Video-to Audio Synthesis)입니다.
파바스는 영상을 입력하면 화면 속 상황을 스스로 이해한 뒤 맞춤형 소리를 만들어내는 기술입니다. 화면 속 물체의 무게와 속도 등을 추정하고 그 결과를 소리 생성 과정에 반영하는 방식으로 작동합니다.
쉽게 설명하면, 마치 사람처럼 화면을 보고 '아 저정도 크기에 저 속도라면 이런 소리가 나겠구나!'를 판단하는 겁니다.
◆ '맥락' 읽는 AI 음향 기술…영상 제작 보조 가능할까?
연구팀은 취재진에게 이번 기술의 핵심에 대해 '맥락에 맞는 소리'를 생성할 수 있다고 강조했습니다.
오태현 KAIST 전산학부 교수는 "인공지능이 물리적인 속도와 무게, 질감, 물체의 특성 같은 것들을 이해하고 그 맥락에 맞는 소리를 생성하는 세계 최초의 기술"이라 설명했습니다.
그러면서 "노동력으로 음향 효과를 만들어내는 영상 제작자들의 보조도구로서 큰 역할을 했으면 좋겠다"고 덧붙였습니다.
오 교수는 이어 "이런 모델을 활용해 영상을 생성했을 때 거짓 비디오로 인한 사회적 문제들이 발생할 수 있는데 연구가 더 발전해서 진짜와 가짜 데이터를 구분하는 데 활용될 수 있으면 사회적으로 더 의미가 있을 것 같다"고 말했습니다.
< copyright © tjb, 무단전재 및 재배포 금지 >
0 / 300
댓글이 없습니다.
첫번째 댓글을 남겨주세요.