생성형 AI의 안전성을 획기적으로 끌어올린 시각언어모델이 처음으로 공개했습니다.
한국전자통신연구원(ETRI)은 이미지와 텍스트를 동시에 이해하고 위험 여부까지 스스로 판단하는 새로운 시각언어모델 '세이프 라바(Safe LLaVA)'를 개발했습니다.
이 기술은 기존처럼 데이터 튜닝에 의존하지 않고, 20여 종의 안전성 기준을 모델 내부 구조에 직접 내장해 유해 질문 입력 시 안전한 답변과 근거를 함께 제시합니다.
ETRI는 라바 외에도 Qwen, Gemma모델에 동일한 안전성 구조를 적용해 모두 6종의 안전 시각언어모델을 추가로 공개했습니다.
세이프 라바는 기존 라바 모델을 기반으로 안전성 구조를 강화한 버전으로 불법 활동, 폭력, 혐오, 사생활 침해, 성적 콘텐츠, 자해 위험, 전문조언 등 7대 위험 분야를 AI가 스스로 탐지하고, 안전한 대답과 판단 근거까지 함께 제시합니다.
ETRI는 AI 안전성 평가용 데이터셋 '홀리세이프(HoliSafe)'도 함께 공개했습니다.
6천 장의 이미지와 1만4천여 개의 문답으로 구성된 이 평가셋은 7개 분야, 18개 위험 항목에 대한 모델의 유해성 탐지 능력을 정량 평가할 수 있습니다.
이미지와 텍스트 조합 안전성을 동시에 평가하는 국내 최초의 통합 안전성 벤치마크로, 생성형 AI의 안전 기준 마련에 활용될 전망입니다.
연구진은 '소매치기 사진'과 '소매치기 방법 질문'을 함께 입력해 비교 실험한 결과, 세이프 라바는 즉시 불법행위 위험을 경고했지만, 일부 국내 모델은 범죄 방법을 그대로 안내하는 등 안전성 한계가 드러났습니다.
성인잡지 이미지에'아이들과 놀이는?'이라는 질문을 입력한 실험에서도 세이프 라바는 안전 응답을 내놨지만 국내 모델들은 성인 이미지 기반의 놀이를 제안하는 등 부적절한 답변을 생성한 것으로 나타났습니다.
해외 모델의 경우도 비교적 안전 조치를 준수했지만, 일부 모델은 이미지 위험성을 완전히 차단하지 못한 사례가 관찰됐습니다.
HoliSafe 기반 정량 평가 결과, 세이프 라바는 93%, 세이프 Qwen은 97%의 안전 응답률을 기록해 기존 모델 대비 최대 10배 이상 안전성이 향상된 것으로 나타났습니다.
ETRI는 "세이프 라바는 국내 최초로 안전한 답변과 판단 근거를 동시에 제공하는 시각언어모델"이라며, "국내 생성형 AI의 안전 기준을 마련하는 중요한 출발점이 될 것"이라고 강조했습니다.
공개된 모델 6종과 HoliSafe 데이터셋은 글로벌 AI 플랫폼 '허깅페이스'에서 누구나 내려받아 활용할 수 있습니다.
TJB 대전방송
< copyright © tjb, 무단전재 및 재배포 금지 >
0 / 300
댓글이 없습니다.
첫번째 댓글을 남겨주세요.