중국과학원 서안광기소는 령견본이상검측분야에서 새로운 진전을 가져왔다Xingwangbao 기계 장비 네트워크

최근 중국과학원 시안광기소 스펙트럼 영상 기술 연구실 왕펑 연구원팀은 컴퓨터 시각 분야의 제로 샘플 이상 검측과 위치 방향에서 새로운 진전을 이룩했으며, 관련 성과는 컴퓨터 시각 및 패턴 식별 대회 (The IEEE/CVF Conference on Computer Visionand Pattern Recognition, CVPR 2026) 에 접수되었다.논문의 제1저자는 서안광기소 2024급 석사연구생 호명이고 통신저자는 무한대학 중남병원 호총박사, 서안광기소 호병량연구원 및 왕연구원이며 서안광기소는 제1통신단위이다.

산업 품질 검사, 의학 영상 분석 등 응용 수요가 끊임없이 증가함에 따라 이상 검측 기술은 날로 주목을 받고 있다.그러나 실제 장면에서 비정상적인 샘플은 종종 희소하거나 심지어 얻기 어려우며, 전통적인 마크업 데이터에 의존하는 감독 학습 방법은 병목 현상에 직면합니다.

시각-언어 모델을 바탕으로 하는 제로 샘플 이상 검측 방법은 대규모 사전 훈련 지식으로 이상 표시 없이 검측을 실현할 수 있지만 세립도 이상 검측 임무에서 이 방법은 여전히 세 가지 도전에 직면하고 있다: 첫째, 모델은 전망 목표와 복잡한 배경을 구분하기 어렵고, 이상 특징은 배경과 혼잡하기 쉬우며, 검측 정밀도에 영향을 미친다;둘째, 단일 텍스트 표현에 의존하여 의미 표현 능력이 제한되어 이상 판별에 세밀한 근거를 제공하기 어렵다;셋째, 다중 모드 정렬 과정에서 이미지와 텍스트의 의미 일치에 불확실성이 존재하여 모델의 성능 향상을 제약한다.

이 같은 문제점에 대해 연구진은 새로운 프레임워크인 FB-CLIP(Foreground-Background Disentangled CLIP)를 제시했다.이 프레임워크는 다음과 같은 세 가지 측면에서 혁신됩니다.

텍스트 모델링에서 다중 전략 텍스트 특징 융합 방법을 제시하고 문장급 표현, 전역 상하문 정보 및 주의력 가중 특징을 결합하여 더욱 풍부한 임무 감지 의미 표현을 구축함으로써 이상 의미에 대한 모델의 이해 능력을 향상시킨다.

시각 모델링에서 다시각 전망-배경 분리 메커니즘을 설계하여 의미, 공간, 구조 등 차원에서 이미지 특징을 결합시키고 배경 억제 전략을 이용하여 복잡한 장면에서의 간섭 정보를 줄여 모델이 이상 구역에 더욱 정확하게 초점을 맞추도록 한다.

다중 모드 정렬에 있어서 의미 일치성 정규화 구속을 도입하여 예측 신뢰도를 높이고 정상과 이상 샘플의 의미 간격을 확대함으로써 모델의 이상에 대한 판별 능력을 강화한다.

실험 결과에 따르면 FB-CLIP는 여러 산업 검사와 의학 영상 데이터 세트에서 모두 우수한 성능을 거두었으며, 특히 세립도 이상 위치 추적 임무에서 두드러진 성과를 보여 전체 성능이 국제 선두 수준에 도달했다.이 방법은 이상 샘플을 표시하지 않아도 복잡한 장면에서 미세한 이상에 대한 정확한 검측과 위치를 실현할 수 있어 양호한 실제 응용 전망을 가지고 있다.

이 성과는 의학영상 보조진단, 산업결함검사 등에 활용될 전망이다.

서안광기소 왕연구원팀은 장기간 컴퓨터시각과 생물의학영상, 뇌기계지능 등 교차방향연구에 깊이 경작해왔으며 최근년간 관련 분야에서 지속적으로 일련의 중요한 진전을 가져왔으며 관련 성과는 CVPR 2025, Pattern Recognition 등에 발표되였다.

IEEE/CVF 컴퓨터 비전 및 패턴 인식 회의는 컴퓨터 비전 분야에서 가장 영향력있는 국제 학술 회의 중 하나이며 중국 컴퓨터 학회 (CCF) 에서 A 클래스 회의로 선정되었습니다.