문제정의💡 1. 기존 3D Gaussian Splatting의 표현력 한계3D Gaussian Splatting(3DGS)은 빠르고 실시간 렌더링이 가능한 뛰어난 방식이지만, 사용되는 Gaussian 분포는 모양이 고정되고 꼬리가 얇은 단일 형태로 제한되어 있어, 복잡한 구조나 넓은 영역을 표현하려면 매우 많은 수의 컴포넌트가 필요함.이는 곧 표현력 부족과 파라미터 비효율성 문제로 이어지며, 더 나은 품질을 위해 많은 Gaussian을 추가할수록 학습 및 추론 비용이 증가하게 됨. 💡 2. 덧셈 기반 Splatting기존 3DGS는 모든 Gaussian이 양의 밀도(positive density)를 가지며, 색을 더하는(splatting) 방식만 가능함.이로 인해 "색을 제거하거나 공간을 비우는 표현..
문제정의💡 1. 폐쇄형 모델 의존 문제현재 최고 수준의 VLM(GPT-4o, Gemini 1.5 등)은 모두 비공개이며, 모델 가중치와 데이터셋, 코드가 공개되어 있지 않음.공개 모델들 중 상위권은 좋은 성능을 내기 위해 closed VLM으로부터 생성된 합성 데이터에 크게 의존하고 있음. 즉, 대부분의 오픈 VLM은 실제로는 폐쇄형 VLM의 지식을 증류(distillation)해 학습된 것으로, 완전히 독립적이지 않다. 💡 2. 진정한 '오픈' VLM 구축을 위한 데이터·기법 미비고품질, 대규모 멀티모달(이미지+텍스트) 데이터를 자체적으로 구축하는 것은 비용과 품질 문제로 인해 매우 어렵고, 따라서 강력한 open VLM을 처음부터 만드는 방법론적 기반이 부족함. 기존의 오픈웨이트(open-weig..
문제정의💡 로봇 내비게이션에서 세계 모델의 필요성 로봇이나 에이전트가 실제 환경을 탐색하려면 "지금 어디에 있고, 앞으로 어떻게 가야 목표에 도달할지" 스스로 계획할 수 있어야 한다. 이를 위해 보통 시각 정보를 기반으로 주위를 이해하고, 미래를 예측하는 능력이 필수적. 💡 기존 내비게이션 방식의 한계기존 로봇 내비게이션은 지도(SLAM)나 경로 탐색 알고리즘, 또는 학습된 정책(Policy)을 이용해 움직인다.하지만 이런 방식은 몇 가지 한계를 가진다.대부분 환경에 대한 사전 지도가 필요하거나, SLAM으로 지도부터 만들어야 한다.한번 학습된 정책은 새로운 규칙을 유연하게 추가하기 어렵다. (ex. "왼쪽으로 돌지 마")새로운 환경에 들어서면 일반화가 잘 되지 않아 탐색에 실패하기 쉽다.💡 문제 ..
문제 정의💡 3D 구조 및 카메라 추정의 중요성3D 재구성(Structure from Motion, SfM)과 SLAM(Simultaneous Localization and Mapping)은 컴퓨터 비전에서 오랫동안 핵심 과제.실제 환경에서 단일 카메라(모노큘러) 영상만으로 카메라 위치/자세와 장면의 3D 구조(깊이)를 정확히 추정하는 것은 다양한 응용(AR/VR, 영상 편집 등)에 필수적.💡 기존 접근법의 한계전통적인 SfM/SLAM 기법은 정적인(움직이지 않는) 장면과 충분한 카메라 움직임(패럴럭스)이 있는 경우에만 잘 동작한다.예시: 삼각대에 고정된 카메라, 넓게 움직이는 촬영 등.핸드헬드 카메라로 촬영한 일상 영상은 다음과 같은 특징을 가짐:카메라 움직임이 적거나 회전 위주인 경우가 많음.장..
문제 정의💡 전통적인 라이다(LiDAR) 시스템의 한계3D 재구성과 장면 복원은 컴퓨터 비전과 그래픽스에서 오랫동안 중요한 주제.라이다(LiDAR)는 레이저 빛을 쏘고, 표면에서 한 번만 반사된 직접광의 도달 시간만을 이용해 3D 구조(포인트 클라우드)를 추정함.하지만 기존의 라이다 시스템은직접광(광원이 물체에 한 번 반사되어 센서로 돌아온 빛) 만을 기반으로 거리를 계산한다.반면에 간접광(indirect light, 여러 번 반사되거나 산란 빛) 은 계산이 복잡하고 비용이 커서 오히려 잡음으로 취급해 제거하거나 무시한다.즉, 간접광에는 장면의 재질, 구조, 빛의 상호작용에 대한 풍부한 정보가 들어있지만 이를 활용하지 못하고 있음. 💡 간접광을 활용한 모델링간접광까지 포함해 정확히 모델링하려면 렌더링..
문제 정의3D 재구성(3D Reconstruction)은 컴퓨터 비전에서 오랫동안 중요한 주제였다.전통적으로는 Structure-from-Motion(SfM)이나 Multi-View Stereo(MVS)와 같은 파이프라인을 통해여러 장의 이미지에서카메라 파라미터(위치, 방향, 시야각)와깊이(Depth), 3D 포인트(좌표)를 복잡한 최적화를 통해 계산해왔다.하지만 이런 기존 방법들은단계가 매우 많고 (특징 추출 → 매칭 → 삼각측량 → BA → MVS 등)속도가 느리며많은 hand-crafted 요소에 의존한다는 한계가 있었다.VGGT가 풀고자 하는 문제VGGT는 이 복잡한 파이프라인을 단일한 거대한 Transformer로 대체하려 한다.즉, 여러 장의 이미지를 한꺼번에 넣으면, Transformer가 ..
T-FLIP: 어텐션 가중치 기반 지식 증류로 FAS 모델 경량화안면 위조 방지(Face Anti-Spoofing, FAS)는 얼굴 인식 기술의 필수적인 보안 구성 요소 중 하나이다. 최근 제안된 FLIP(Face Anti-Spoofing with Language-Image Pretraining) 모델은 기존 FAS 연구들과 달리 도메인 간 일반화 성능에서 뛰어난 성능을 보여 안면 위조 방지 기술의 새로운 기준을 제시했다. 그러나 FLIP 모델은 높은 연산량과 메모리 요구량으로 인해 감시 카메라, 모바일 디바이스 등 자원이 제한된 환경에서는 활용도가 떨어지는 단점이 있다. 이를 해결하기 위해 우리는 FLIP-MCL 모델을 기반으로 T-FLIP을 제안하여 모델 크기와 연산량을 줄이는 동시에 성능을 최대한 ..
우리 팀의 연구 주제는 멀티모달 모델인 CLIP 중에서도 FAS(Face anti-spoofing) 데이터셋에 대해 finetuning된 FLIP을 경량화하는 것을 목표로 한다. FLIP 경량화를 위해 FAS Dataset이 필요한데, 우리는 FLIP 논문에 나온 데이터셋들 중에서도 MCIO 데이터셋을 먼저 활용하기로 하였다. MCIO는 MSU-MFSD(M), CASIA-MFSD(C), Replay-attack(I), OULU-NPU(O) 네 개의 데이터셋을 의미하며 추가적으로 CelebA-Spoof 데이터셋도 활용했다고 한다. 해당 데이터셋들의 정보와 전처리 방법은 FLIP 코드 중 dataset.md를 참고하면 된다. 하지만 생각보다 각각의 데이터셋을 얻는 것도 쉽지 않고, 이를 전처리하는 과정도 간..
Abstract기존 Face anti-spoofing(FAS) 방법은 보지 못한 spoof 유형, 카메라 센서 및 환경 조건에 대한 일반화 능력이 부족하다. 최근 Vision Transformer(ViT) 모델이 image patch 간의 장거리 종속성을 포착할 수 있는 능력 덕분에 FAS 작업에 효과적이라는 것이 입증되었다. 그러나 Imagenet과 같이 대규모 데이터셋으로 학습된 ViT의 가중치를 조정하려면 adaptive moudles(적응 모듈)이나 auxiliary loss functions(보조 손실 함수)이 필요하다. 따라서 이 연구에서는ViT를 CLIP과 같은 멀티 모달 모델의 사전 훈련된 가중치를 사용해서 초기화하면 FAS 작업에 대한 일반화 능력이 향상됨을 보여준다. (VLP 모델의 ..