CVPR 2026 ACCIDENT 챌린지에서 종합 2위·퍼블릭 1위를 차지한 중앙대학교 생성적 인공지능 연구실(GAIL) 구성원. 왼쪽부터 김석현·류동훈·황동환(석사과정), 구찬회(박사과정), 이민혁 교수
서울--(뉴스와이어)--세계 최고 권위의 컴퓨터 비전 학회로 꼽히는 CVPR(Computer Vision and Pattern Recognition) 2026의 자율주행 분야 국제 챌린지에서 국내 대학 연구실이 세계 정상급 연구진과 어깨를 나란히 했다. CVPR은 매년 단 한 차례 열리는 인공지능(AI) 영상 인식 분야의 최고 학회로, 이 학회의 공식 워크숍 챌린지에서 입상하는 것은 해당 분야의 세계적 경쟁력을 인정받았다는 의미를 갖는다.
중앙대학교 전자전기공학부 이민혁 교수가 이끄는 생성적 인공지능 연구실(GAIL, Generative AI Research Lab)은 ‘CVPR 2026 AUTOPILOT’ 워크숍이 주최한 ACCIDENT 챌린지(Zero-Shot Accident Detection from Traffic Surveillance Videos)에서 종합 2위, 퍼블릭 리더보드 1위를 기록했다고 밝혔다.
이번 챌린지에는 세계 각국의 컴퓨터 비전·자율주행·AI 분야 연구팀이 모인 가운데 총 106개 팀이 참가해 치열한 경쟁을 벌였으며, 중앙대 생성적 인공지능 연구실에서는 석사과정 김석현·류동훈·황동환 학생과 박사과정 구찬회 학생이 참여해 의미 있는 성과를 거뒀다.
‘언제, 어디서, 어떤 사고가 났는가’를 AI가 영상만 보고 알아내는 문제
ACCIDENT 챌린지는 도로변에 설치된 일반 교통 CCTV 영상을 보고, AI가 사고가 일어난 시점(언제), 화면에서 충돌이 일어난 위치(어디서), 그리고 사고의 종류(정면충돌·후미추돌·측면접촉·단독사고·측면충돌)를 한꺼번에 알아맞히는 문제다. 사람이 사고 영상을 보고 ‘아, 저기서 두 차가 부딪혔네’라고 판단하는 일을 AI가 자동으로 하도록 만드는 것이라고 보면 된다. 채점은 전 세계 도로에서 촬영된 실제 CCTV 2000여 편을 대상으로 이뤄지며, AI가 사전에 본 적 없는 영상에서 곧바로 사고를 찾아내야 하는 이른바 ‘제로샷(zero-shot)’ 방식이라 난이도가 매우 높다.
특히 이번 대회의 실제 CCTV 영상들 중에는 사람이 풀스크린으로 영상을 정지시킨 채 한참 들여다봐도 어디서 어떤 사고가 났는지 알아내기 힘들 정도로 화질이 낮은 영상이 다수 포함돼 있었다. 야간의 어두움, 빗방울에 흐려진 렌즈, 흔들리는 카메라, 압축으로 뭉개진 차량 형태가 흔했고, 무엇보다 카메라가 도로를 멀리서 비추다 보니 사고 차량이 화면 전체에서 점 하나처럼 매우 작게 보이는 영상도 많았다. 사람이 봐도 ‘어디 보고 있어야 하지?’ 싶을 만큼 단서가 흐릿한 영상들이 시험 무대였다.
핵심 아이디어 - ‘돋보기로 단계적으로 들여다보기’
이민혁 교수 연구팀은 이 문제를 풀기 위해 사람이 흐릿한 사진에서 무언가를 찾을 때 자연스럽게 하는 행동을 AI가 흉내 내도록 만들었다. 사람은 보통 어려운 그림 찾기를 할 때 처음에는 사진 전체를 쓱 훑어본 다음 ‘이쯤에 뭔가 있는 것 같다’ 싶은 부분만 더 가까이서 보고, 거기서 또 좁혀가며 결국 정확한 위치를 짚어낸다. 연구팀은 이 과정을 그대로 AI에게 시켰다.
구체적으로는 다음과 같은 3단계 절차를 거친다. 첫째, 영상을 큰 격자로 나눠 각 칸마다 ‘여기에 사고가 있을 확률은 얼마인가’를 영상을 이해하는 AI(비전-언어 모델)에게 묻는다. 둘째, 확률이 높게 나온 칸만 골라 그 부분만 더 작은 격자로 다시 나누고 같은 질문을 반복한다. 셋째, 한 번 더 잘게 쪼개 정밀하게 들여다본다. 마지막에는 1·2·3단계에서 나온 모든 확률을 합쳐 가장 사고 가능성이 높은 시점·좌표·유형을 결정한다.
이 방법이 효과를 발휘한 이유는 분명하다. 사고 차량이 점처럼 작게 보이는 영상에서는 한 번에 전체를 통째로 분석하면 AI가 그 작은 단서를 놓쳐버리기 쉽다. 그러나 ‘넓게 보고 → 좁혀 보고 → 더 좁혀 보는’ 방식으로 시선을 단계적으로 옮기면 사람이 흐릿한 사진을 차근차근 분석할 때처럼 AI도 작은 단서를 놓치지 않을 수 있다. 또한 매 단계의 판단을 합산하기 때문에 어느 한 단계에서 잘못 봤더라도 다른 단계가 이를 보완해 전체 결정이 크게 흔들리지 않는다.
이민혁 교수는 “사람이 흐릿한 CCTV를 보면서 ‘저기 뭔가 이상한데’라고 느끼는 그 직관을 AI가 단계적으로 따라 하도록 만든 것이 이번 연구의 핵심”이라며 “별도의 추가 학습 없이 이미 공개된 AI 모델만으로 사람과 가까운 수준의 판단력을 끌어낼 수 있다는 점을 보였다는 데 의미가 있다”고 설명했다.
기대효과 - 도로 안전부터 자율주행, 보험까지
이번 연구 성과는 학술 대회 입상에 그치지 않고, 우리 일상 곳곳에 광범위한 변화를 가져올 수 있을 것으로 기대된다.
가장 직접적인 효과는 도로 안전과 응급 대응 분야에서 나타난다. 현재 전국에 설치된 수십만 대의 교통 CCTV는 대부분 사람이 모니터를 직접 지켜보거나 사고 신고가 들어온 뒤에야 영상을 되돌려 보는 방식으로 운용된다. 새벽 시간이나 외진 도로에서는 사고가 나도 누구도 인지하지 못한 채 한참이 지나는 일이 빈번하다. 이번 연구의 기술이 적용되면 사고가 발생하는 즉시 AI가 자동으로 시점·위치·유형을 인식해 관제센터·119·경찰에 통보할 수 있어 골든타임 확보와 2차 사고 예방에 크게 기여할 수 있다.
자율주행 자동차의 안전성 향상에도 활용 가능하다. 자율주행 시스템은 자기 차량의 카메라뿐 아니라 도로 주변 CCTV·센서에서 들어오는 정보까지 함께 활용할 때 더 안전해진다. 안개나 비로 시야가 나쁜 상황에서도 도로 인프라가 사고를 정확히 감지해 알려준다면 자율주행차는 사고 지점을 미리 우회하거나 속도를 낮춰 위험을 피할 수 있다.
보험과 사고 처리 자동화에도 큰 변화를 가져올 수 있다. 지금은 사고가 나면 보험사 직원이 영상을 일일이 확인해 사고 시점, 충돌 부위, 사고 유형을 판단하느라 며칠씩 걸리기도 한다. 이 기술이 보급되면 사고 영상이 들어오는 즉시 사고 유형이 자동 분류되고 충돌 좌표까지 표시돼 처리 시간이 크게 줄어들고 분쟁 소지도 줄어든다. 나아가 본 기술의 핵심 아이디어는 교통사고에 국한되지 않으며, ‘큰 화면 속에서 작고 흐릿한 단서를 찾아야 하는 다양한 영상 분석 분야’로 폭넓게 확장될 수 있다.
마지막으로 이번 성과는 국내 대학 연구실이 세계 정상급 연구팀들과 견줘 상위권 성능을 낼 수 있음을 보여준 사례다. 별도의 대규모 학습 없이 공개 모델을 영리하게 결합하는 방식만으로 상위 성과를 낸 점은 자원이 제한된 환경에서도 충분히 세계적 연구가 가능하다는 점을 시사한다.
향후 계획
연구팀은 이번 챌린지에서 검증된 다단계 분할·확률 누적 방식을 일반화해 저화질 영상 환경에서도 안정적으로 작동하는 AI 기반 안전 분석 프레임워크로 발전시킬 계획이다. 또한 본 결과를 정리해 국제 학술지에 투고하고, 산업체와의 협력을 통해 실제 도로 관제 시스템 및 자율주행 안전 모듈로의 기술 이전도 추진할 예정이다.
이민혁 교수는 “이 기술이 도로 위 한 명의 생명이라도 더 살리는 데 기여할 수 있도록 계속 발전시키겠다”고 밝혔다.
중앙대학교 생성적 인공지능 연구실 소개
중앙대학교 전자전기공학부 소속 생성적 인공지능 연구실(Generative AI Research Lab, GAIL)은 이민혁 교수가 이끄는 연구실로, 생성 AI(Generative AI), 컴퓨터 비전, 그리고 AI 기반 로보틱스를 핵심 연구 분야로 삼고 있다. 본 연구실에서는 3D Gaussian Splatting, NeRF, Vision Transformer 등 최신 컴퓨터 비전 기술과 대규모 언어모델(LLM), 비전-언어-행동(VLA) 모델 등 생성 AI 기반 기술을 폭넓게 연구하며, CVPR을 비롯한 국제 학술대회와 저명 학술지에 활발히 논문을 발표하고 있다. 아울러 산학협력 및 기술사업화에도 적극적으로 참여해 로봇 학습을 위한 합성 데이터 생성, AI 기반 콘텐츠 제작 등 다양한 응용 분야로 연구 영역을 확장해 나가고 있다.