Abstract기존 Face anti-spoofing(FAS) 방법은 보지 못한 spoof 유형, 카메라 센서 및 환경 조건에 대한 일반화 능력이 부족하다. 최근 Vision Transformer(ViT) 모델이 image patch 간의 장거리 종속성을 포착할 수 있는 능력 덕분에 FAS 작업에 효과적이라는 것이 입증되었다. 그러나 Imagenet과 같이 대규모 데이터셋으로 학습된 ViT의 가중치를 조정하려면 adaptive moudles(적응 모듈)이나 auxiliary loss functions(보조 손실 함수)이 필요하다. 따라서 이 연구에서는ViT를 CLIP과 같은 멀티 모달 모델의 사전 훈련된 가중치를 사용해서 초기화하면 FAS 작업에 대한 일반화 능력이 향상됨을 보여준다. (VLP 모델의 ..
abstract 머신러닝 알고리즘들의 성능을 향상시킬 때, 모델들을 각각 훈련시킨 뒤 앙상블하는 기법을 많이 사용한다. 하지만 이렇게 앙상블된 모델로 prediction하는 과정은 굉장히 복잡하고 느리며(cumbersome), 많은 사람들이 사용하기에는 계산 비용이 크다는 단점이 있다. 이를 해결하기 위해, Caruana와 그의 collaborator들은 앙상블된 지식을 압축해서 하나의 모델에 넣는 것이 가능하다는 것을 보여주었는데, 본 논문에서는 이를 발전시킨 다른 지식 압축 기술을 제안한다. 앙상블된 모델들의 지식을 하나의 모델에 distilling함으로써 MNIST 데이터에 대해서 향상된 결과를 보여주며 acoustic model의 성능도 향상시켰다. 또한 새로운 유형의 앙상블 기법을 제안하여 기존..
Loss Functions 예측 함수 f(x,W) = Wx 왼쪽 숫자들은 임의의 행렬 W를 가지고 예측한 클래스 스코어이다. 고양이 샘플 데이터에서 cat score는 3.2로 car score 5.1보다 낮고, 개구리 샘플 데이터에서 frog score는 -3.1로 cat과 car에 대한 score보다 낮은 값을 갖고 있다. 우리는 정답 클래스가 해당 데이터에서 가장 높은 점수가 되는 분류기를 원하기 때문에 해당 분류기가 성능이 별로 좋지 않다는 것을 알 수 있다. 하지만 스코어를 눈으로 보며 분류기의 성능을 평가하는 것은 좋은 방법이 아니다. 문제를 해결할 알고리즘을 만들고, 어떤 W가 가장 좋은지 결정하기 위해서는 W가 좋은지 나쁜지를 정량화 할 방법이 필요하다! 손실함수는 W를 입력받아 각 스코어..
Image Classificaiton은 컴퓨터가 입력받은 이미지를 보고 어떤 카테고리에 속할지 고르는 작업니다. 시스템에는 개, 고양이, 트럭, 비행기 등 미리 정해져 있는 카테고리 집합이 있다. 컴퓨터에게 이미지는 아주 큰 격자 모양의 숫자 집합에 해당한다. 각 픽셀은 rgb값을 의미하는 세 개의 숫자로 표현된다. 이러한 거대한 숫자 집합에서 고양이를 인식하는 것은 상당히 어려운 일이며, 이것을 바로 의미론적인 차이(semantic gap )라고 한다. 고양이라는 레이블은 우리가 이 이미지에 붙힌 의미상의 레이블이다. 이미지가 고양이 사진이라는 사실과 컴퓨터가 보는 픽셀값과에는 큰 차이가 있다. 이미지에 아주 미묘한 변화만 주더라도, 카메라를 아주 조금만 옆으로 옮겨도 모든 픽셀값은 변하지만 고양이라는..
생물학적 비전 진화의 빅뱅(543 million years B.C.) 지구 대부분은 물로 이루어져 있고 바다를 부유하는 일부 생물들만 존재했다. 생물들에게 눈(eyes)이 존재하지 않았다. 그러나 어떤 기점 이후로 천만 년이라는 아주 짧은 시기 동안에 생물의 종 수가 폭발적으로 증가했다. Andrew Parker는 비전(시각)의 탄생이 폭발적인 종 분화의 시기를 촉발했다고 주장한다. 생물들은 시각을 활용해 더 능동적으로 활동하며 빠르게 진화했을 것으로 추정된다. 이후 비전은 거의 모든 동물, 특히 지능을 가진 동물의 가장 큰 감각체계로 발전한다. 비전은 인간의 가장 큰 감각체계이며, 대뇌피질의 50% 가량의 뉴런이 시각 처리에 관여한다. 전기생리학을 이용한 Hubel과 Wiesel의 연구 생물학자들은 비..
Pytorch Basic Tensor Manipulation Numpy와 유사한 부분이 많음 Vector, Matrix and Tensor 1차원으로 이루어지는 값 - Vector(벡터), 1D Tensor 2차원으로 이루어지는 값 - Matrix(행렬), 2D Tensor 3차원으로 이루어지는 값 - (3D) Tensor 2D Tensor (Typical Simple Setting) |t|=(batch size, dim) batch size * dimension의 사이즈를 갖고있다. 보통 (64,256) 3D Tensor(Typical Computer Vision) |t|=(batch size, width, height) pytorch는 세로, 가로, 깊이의 값이 순차적으로 들어간다 3D Tensor(..