IT

tjb

KAIST, 생성형 AI 특화 고성능 NPU 기술 개발…GPU보다 60% 이상 성능↑

기사입력
2025-07-04 오후 5:17
최종수정
2025-07-04 오후 5:17
조회수
1
  • 폰트 확대
  • 폰트 축소
  • 기사 내용 프린트
  • 기사 공유하기
KAIST 연구진이 생성형 AI 서비스의 추론 성능을 평균 60% 이상 높이고, 전력 소모는 약 44% 줄일 수 있는 신경망처리장치(NPU) 핵심 기술을 개발했습니다.

KAIST 전산학부 박종세 교수 연구팀과 전기및전자공학부 김주영 교수 창업기업인 ㈜하이퍼엑셀이 공동으로 진행한 이번 연구는, 생성형 AI 모델에 특화된 고성능·저전력 인프라 구현 가능성을 입증했다는 점에서 주목받고 있습니다.

이번 연구 성과는 컴퓨터 아키텍처 분야 세계 최고 권위 학회로 지난 6월 21일부터 25일까지 일본 도쿄에서 열린‘2025 국제 컴퓨터구조 심포지엄(ISCA)’에 채택돼 발표됐습니다.

연구팀이 개발한 기술은 생성형 AI 모델의 핵심 연산과정인 KV 캐시(Key-Value Cache)를 양자화해 메모리 사용량을 획기적으로 줄이면서도, 추론 정확도는 유지하는 것이 특징입니다.

KV 캐시는 대용량 생성형 AI가 대화나 문서 생성을 위해 임시로 정보를 저장하는 공간으로, 기존에는 32비트 정보가 사용됐지만 이번 연구에서는 4비트로 줄여 메모리 사용량을 1/8 수준으로 최적화했습니다.

또한 연구팀은 기존 NPU 연산 구조를 변경하지 않으면서도 새로운 양자화 알고리즘을 반영한 페이지 단위 메모리 관리 기법과 인코딩 방식을 개발해, 메모리 병목 문제까지 해결했습니다.

이를 통해 고가의 GPU를 수십만 장 사용하는 현재의 AI 클라우드 구조 대신, 소수의 NPU만으로도 같은 수준의 성능을 낼 수 있는 저비용·고효율 인프라 구현이 가능해졌습니다.

박종세 교수는 “이번 연구는 생성형 AI 추론의 ‘메모리 문제’를 해결하면서 고성능과 저전력을 동시에 달성했다”며 “AI 클라우드뿐 아니라 앞으로 주목받을 에이전틱 AI(Agentic AI) 환경에서도 핵심 기술로 활용될 것”이라고 밝혔습니다.

이번 연구는 KAIST 김민수 박사과정과 ㈜하이퍼엑셀 홍성민 박사가 공동 제1저자로 참여했으며, 한국연구재단 우수신진연구자지원사업과 정보통신기획평가원(IITP)의 인공지능반도체대학원지원사업의 지원을 받아 수행됐습니다.

※ 논문 제목: Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization
※ DOI: https://doi.org/10.1145/3695053.3731019



TJB 대전방송
  • 0

  • 0

댓글 (0)
댓글 서비스는 로그인 이후 사용가능합니다.
  • 0 / 300

  • 취소 댓글등록
    • 최신순
    • 공감순

    댓글이 없습니다.

    첫번째 댓글을 남겨주세요.

    신고팝업 닫기

    신고사유

    • 취소

    행사/축제

    이벤트 페이지 이동

    서울특별시

    날씨
    2021.01.11 (월) -14.5
    • 날씨 -16
    • 날씨 -16
    • 날씨 -16
    • 날씨 -16

    언론사 바로가기

    언론사별 인기뉴스