Abstract
기존 Face anti-spoofing(FAS) 방법은 보지 못한 spoof 유형, 카메라 센서 및 환경 조건에 대한 일반화 능력이 부족하다. 최근 Vision Transformer(ViT) 모델이 image patch 간의 장거리 종속성을 포착할 수 있는 능력 덕분에 FAS 작업에 효과적이라는 것이 입증되었다. 그러나 Imagenet과 같이 대규모 데이터셋으로 학습된 ViT의 가중치를 조정하려면 adaptive moudles(적응 모듈)이나 auxiliary loss functions(보조 손실 함수)이 필요하다.
따라서 이 연구에서는
- ViT를 CLIP과 같은 멀티 모달 모델의 사전 훈련된 가중치를 사용해서 초기화하면 FAS 작업에 대한 일반화 능력이 향상됨을 보여준다. (VLP 모델의 zero-shot transfer 능력과 동일)
- 자연어의 도움과 visual representation을 기반으로 강력한 cross-domain FAS를 위한 새로운 접근 방식 제안한다. 이미지 표현을 자연어로 된 클래스 설명들과 정렬하는 것이 데이터가 적은 상황에서의 FAS의 일반화 능력을 향상시킨다.
- feature generalization을 더욱 강화하고 source domain과 target domain 간 격차를 해소하기 위해 multimodal contrastive learning strategy를 제안한다.
Introduction
Face Recognition 기술에서 FAS의 필요성
개인 기기부터 공항 탑승 게이트에 이르기까지 얼굴 인식 시스템은 사람을 인식하는 보편적인 도구가 되었다. 이는 딥러닝 기반의 얼굴 인식 기술의 발전과 단순성 및 비접촉성 덕분이라고 할 수 있다. 그러나 이러한 시스템은 인쇄된 사진, 재생된 비디오, 또는 3D 인 마스크와 같은 presentation attack instruments(PAI)를 사용하여 본인 인증을 속이려는 face presentation attacks에 취약하다. 따라서 face anti-spoofing(FAS) 또는 face presentation attack detection(FPAD)는 presentaion attack으로부터 얼굴 인식 시스템을 보호하는 것이 필수적이다.
기존 FAS 연구의 한계: cross-domain FAS
기존 연구들은 훈련과 테스트 데이터셋의 분포가 유사한 경우, 즉 도메인 내 시나리오에서 인상적인 FAS 정확도를 달성해왔다. 그러나 다음과 같은 이유들로 unseen target domain에 대해 잘 일반화하지 못한다.
- 카메라 센서, presentation attack instruments(PAI), 조명 변화 및 이미지 해상도 차이로 인한 변동성이 소스와 타겟 분포 간의 큰 도메인 간격을 발생시키며, 이는 본질적으로 극복하기 어렵다.
- 일반적으로 사용되는 FAS 벤치마크 데이터셋은 제한된 훈련 데이터를 가지고 있어 모델이 소스 도메인에 과적합되기 쉽다. 따라서 강력한 cross-domain FAS 성능을 달성하는 것은 여전히 어려운 과제이다.
cross-domain FAS에 대한 기존 연구들
- Unsupervised domain adaptaion(UDA)
라벨이 없는 타겟 도메인 데이터와 라벨이 있는 소스 도메인 데이터를 사용하여 일반화된 결정 경계를 학습한다. - Few-shot learning
훈련 중에 라벨이 있는 타겟 도메인 데이터의 작은 하위 집합을 사용하여 타겟 도메인에 잘 적응하는 특징을 학습한다. 그러나 위 두 가지 방법들은 라벨이 없는 대규모 데이터셋이나 몇 개의 라벨만 있는 샘플 형태로 타겟 도메인에 접근할 수 있다는 가정을 하는데, 이는 항상 가능한 것이 아니다. - Domain Generalization(DG)
보이지 않는 타겟 도메인에 일반화되는 다중 소스 도메인으로부터 도메인 무관 판별 특징을 학습한다. 더 어려운 도전 과제이지만 실제에 더 적합하다.
cross-domain FAS + ViT
- On the effectiveness of vision transformers for zero-shot face anti-spoofing by Anjith George, IEEE IJCB, 2021.
- Adaptive transformers for robust few-shot cross-domain face anti-spoofing by Hsin-Ping Huang, ECCV, 2022.
- Domain invariant vision transformer learning for face anti-spoofing by Chen-Hao Liao, IEEE WACV, 2023.
위 연구들은 크로스 도메인 FAS에 대해 비전 트랜스포머(ViT)의 효과를 입증했다. ViT는 이미지를 고정 크기 패치로 나누고 이러한 패치 간의 장거리 종속성을 포착할 수 있기 때문에 local spoof patterns, 즉 얼굴 이미지의 특정 부분에서 나타나는 스푸핑 공격의 특징을 감지하고 이를 전역적으로 집계하여 정보에 입각한 결정을 내릴 수 있다.
cross-domain FAS + ViT 의 한계
- 이러한 ViT는 이미지 데이터만을 사용하여 학습되며, 이미지에 대한 정보는 해당 라벨에 의해서만 안내되기 때문에 데이터를 충분히 표현하지 못 할 수 있다. 특히 이러한 특징을 가진 ViT에 제한된 훈련 데이터를 사용하면 일반화 능력이 제한된다.
- 이들은 일반적으로 적응 모듈, 추가 도메인 라벨 또는 공격 유형 정보를 필요로 하여 사전 훈련된 가중치를 미세 조정해야 한다. 명시적인 네트워크 수정이나 공격 유형 또는 도메인 라벨과 같은 추가 정보를 맞춰 구성해야 한다.
연구의 목적
multimodal vision-language pretrained(VLP) 모델은 일부 애플리케이션에서 놀라운 제로샷 성능과 우수한 일반화를 달성했지만, 언어 감독을 통합하는 것이 비전 모델에 더 일반화된 표현을 제공하는지에 대해서는 여전히 논쟁이 있다.
따라서 이 연구는 다음 질문들을 검토한다.
- 멀티모달 사전 훈련된 가중치를 사용하여 ViT를 초기화하면 이미지로만 사전 훈련된 ViT에 비해 더 나은 크로스 도메인 FAS 성능을 제공할 수 있는가?
- VLP 모델의 이미지 인코더를 활용하는 것 외에도 텍스트 인코더를 활용하여 FAS 일반화 성능을 향상시킬 수 있는가?
- VLP 모델을 FAS 작업에 맞게 적응시키는 동안 self-supervision 기법을 활용하여 FAS에서 도메인 간 큰 간격과 제한된 훈련 데이터의 가용성을 극복할 수 있는가?
Proposed Method
- many-to-one Domain Generalization
모델은 N개의 서로 다른 소스 도메인 데이터셋 S = {S1, S2, ···, SN}으로부터 학습되고 단일 타겟 도메인 데이터셋 T에서 평가된다. - one-to-one Domain Generalization
모델이 단일 소스 도메인 Si의 이미지로 훈련되어 타겟 도메인에 일반화된다.
cross-domain FAS의 목표는 훈련 데이터 분포 외의 얼굴 데이터셋에서 높은 presentation attack 탐지 정확도를 달성하는 것이다.
cross-domain FAS를 위한 Language-Image Pretraining (FLIP)이라는 프레임워크를 제안한다. 제안된 프레임워크는 CLIP을 기본 모델로 사용하며, 다양한 전략으로 finetuning하여 세 가지 변형을 얻는다.
- FLIP-Vision (FLIP-V)
- FLIP-Image-Text Similarity (FLIP-IT)
- FLIP-Multimodal-Contrastive-Learning (FLIP-MCL)
Contrastive Language-Image Pre-Training
CLIP은 인터넷에서 수집한 수백만 개의 이미지-텍스트 쌍을 사용하여 훈련되었다. CLIP는 입력 이미지 I ∈ R^{H×W×3}와 해당 텍스트 설명 t를 공유 임베딩 공간으로 인코딩한다.
이미지 인코더
이미지 인코더는 K개의 트랜스포머 블록들(V1, V2, ... ,Vk)로 구성된 비전 트랜스포머 V이다.
1. 입력 이미지 I를 인코딩하기 위해 먼저 고정 크기 패치로 분할한다.
2. 패치들은 패치 임베딩 e0 ∈ R^{M×d_v}로 선형 투영된다.
3. 패치 임베딩 e_{k-1}은 학습 가능한 클래스 토큰 c_{k-1}을 추가한 후 k번째 트랜스포머 블록(Vk)에 입력된다.
4. 순차적으로 K개의 트랜스포머 블록을 통해 처리된다.
5. 마지막 트랜스포머 블록(VK)에서 클래스 토큰 cK을 shared vision-language space로 선형 투영하여 최종 이미지 표현인 x를 얻는다.
텍스트 인코더
1. 텍스트 인코더 L은 단어들을 토큰화한다.
2. 토큰들을 단어 임베딩 w0 = [w1_0, w2_0, ···, wQ_0] ∈ R^{Q×d_l}로 투영하여 설명 t의 feature representations을 생성한다.
3. 각 단계에서 w_{k-1}은 k번째 트랜스포머 블록(Lk)에 입력된다.
4. 최종 텍스트 표현 z는 마지막 트랜스포머 블록(LK)의 마지막 토큰에 해당하는 텍스트 임베딩을 TextProj를 통해 공유 비전-언어 잠재 공간으로 투영하여 얻는다.
FLIP-Vision
CLIP은 분류, 객체 탐지와 같은 자연 이미지 기반의 다양한 다운스트림에서 인상적인 성능을 보여주었지만, 이러한 CLIP이 생성 특징은 유사한 얼굴 이미지 간의 미묘한 변화를 식별해야 하는 FAS 작업에 직접 사용될 수 없다. 따라서 먼저 FAS를 위해 vision backbone만 가져와 finetuning하며, 이 접근 방식을 FLIP-Vision(FLIP-V)이라고 한다. 이 방법에서는 사전 훈련된 CLIP 모델을 가져와 이미지 인코더 V만 사용하고 텍스트 인코더 L은 버린다. 이는 language-vision에서의 사전 훈련된 가중치로 초기화된 단순한 ViT를 제공한다.
N개의 소스 도메인에서 균형 잡힌 이미지 배치를 이미지 인코더에 주면 마지막 트랜스포머 블록(VK)에서 클래스 토큰(cK)을 추출한다. 그런 다음 이 클래스 토큰을 multi-layer perceptron (MLP) classification head로 전달하여 입력 이미지가 스푸핑인지 진짜인지 결정한다. 이때, 이미지 인코더와 MLP 헤드는 표준 교차 엔트로피 손실(CE)을 사용하여 업데이트된다.
FLIP-IT
FLIP-Image-Text Similarity에서는 MLP 헤드를 사용하는 대신 언어 감독의 도움으로 예측을 수행한다. 구체적으로, 우리는 진짜와 스푸핑 클래스에 해당하는 텍스트 프롬프트 설명(tr, ts)을 활용한다. 이러한 설명의 특징 표현은 텍스트 인코더 L을 사용하여 계산된다. 이미지 표현 x와 두 클래스에 해당하는 텍스트 표현(zr과 zs) 간의 코사인 유사성을 각각 구하며, 배치 내의 각 이미지에 대해 모두 생성한다. 이러한 유사성 값은 클래스 로짓으로 간주되어 교차 엔트로피 손실 계산에 사용된다. 추론 중에는 주어진 이미지 I와 가장 높은 코사인 유사성 점수를 가진 클래스 설명에 의해 예측 클래스(yˆ)가 결정된다.
τ: temperature parameter
yˆ ∈ {r, s}: 예측된 클래스 라벨
제한된 훈련 데이터 가용성을 고려하여, 각 이미지를 클래스 프롬프트 앙상블에 정렬시킨다. 우리는 각 클래스에 대해 P개의 설명을 고려하고 각 설명에 대한 텍스트 표현 z를 계산한다. 이러한 표현의 평균(z¯)은 임베딩 공간에서 컨텍스트의 앙상블을 제공합니다. 이미지를 다양한 자연어 클래스 설명과 정렬함으로써 모델이 클래스별 단서를 학습할 수 있게 한다.
FLIP-MCL
FLIP-Multimodal-Contrastive-Learning(FLIP-MCL)에서는 추가적인 multimodal contrastive learning objective를 제안해 추출된 특징의 일반화 능력을 더욱 향상시키고 도메인 간 차이와 제한된 데이터 문제를 극복한다. 이 접근 방식은 contrastive view-based self-supervised learning에서 영감을 받았다. 코사인 유사성 로짓에 적용되는 cross-entropy 손실 외에도, self-supervised simCLR 손실과 평균 제곱 오차(MSE) 손실도 적용한다. simCLR 손실은 image views 쌍에 적용되고, MSE 손실은 image-text views 쌍 간의 일관성을 강화한다.
simCLR 손실의 경우, 주어진 이미지 I에 서로 다른 변환을 적용하여 두 가지 view, Iv1 과 Iv2를 생성한다. 변환된 두 이미지는 이미지 인코더 V를 통해 특징 추출되며, 비선형 투영 네트워크 H를 사용하여 추가로 투영된다. 마지막으로, 투영된 특징에 contrastive loss가 적용된다.
MSE 손실의 경우, 먼저 진짜 클래스에서 두 개의 다른 프롬프트를 무작위로 샘플링하고 이들의 텍스트 표현(zv1, zv2)들을 얻는다. 생성된 두 개의 이미지 뷰와 두 개의 텍스트 뷰를 가지고, 각 이미지-텍스트 뷰 쌍에 대해 코사인 유사성 점수를 계산하고 두 유사성 점수 간의 일관성을 강화다.
합동 학습 목표, total loss는 다음과 같다.
Experiment
Datasets and DG Protocols (Domain Generalization Protocols)
세 가지 다른 프로토콜에서 평가를 진행한다.
프로토콜 1,2는 데이터 MSU-MFSD (M) [49], CASIA-MFSD (C) [65], Idiap Replay Attack (I) [7], OULU-NPU (O) 셋 하나를 도메인으로 간주하고 남은 도메인에서 교차 도메인 성능을 평가한다.
- 프로토콜1: MSU-MFSD(M), CASIA-MFSD(C), Idiap Replay Attack(I), OULU-NPU(O)
ex) OCI → M : O, C, I 데이터셋이 소스 도메인, M이 타겟 도메인인 시나리오 - 프로토콜2: 대규모 FAS 데이터셋인 WMCA(W), CASIA-CeFA(C), CASIA-SURF(S)
- 프로토콜3: a single-source-to-single-target protocol
소스 도메인 1개, 타겟 도메인 1개로 평가한다. MCIO에서 총 12가지 시나리오 제공
주요 기여
- CLIP image encoder와 같은 multimodal pretrained ViT를 추가적인 요소 없이 직접 미세 조정하는 게 더 나은 FAS 일반화 가능성을 제공함을 보여준다.
- 자연어 의미를 사용한 시각적 표현을 기반으로 하여 강력한 cross-domain FAS를 위한 새로운 접근 방식을 제안한다. 이는 finetuning 중에 이미지 표현을 클래스 설명 텍스트 프롬프트 앙상블과 정렬함으로써 실현된다.
- 제한된 훈련 데이터로도 FAS 도메인 간격을 연결하는 더 일반화된 특징을 학습하도록 모델을 강제하는 multimodal contrastive learning strategy을 제안한다. 이 전략은 학습 과정에서 추가적인 통제 방식으로 view-based cross-modal image-text similarity을 활용한다.
----
IrD: 도메인 D ∈ (S ∪ T)에서 진짜(bonafide) 얼굴 이미지
IsD: D에서 스푸핑(presentation attack) 이미지
'Deep Learning' 카테고리의 다른 글
[Paper Review] Distilling the Knowledge in a Neural Network (작성중) (0) | 2024.04.10 |
---|---|
[CS231n] Lecture 3: Loss Functions and Optimization (1) | 2023.12.10 |
[CS231n] Lecture 2: Image Classification (2) | 2023.12.02 |
[CS231n] Lecture 1: Introduction to Convolutional Neural Networks for Visual Recognition (0) | 2023.12.02 |
모두를 위한 딥러닝 시즌 2 [Pytorch] - Tensor Manipulation (0) | 2023.04.16 |