24.11.26

멘토링

SAMURAI

SAM 사용해서 zero-shot 트래킹을 잘 하는 사무라이 모델이 새로 나왔다
유떱: 워싱턴대학교

DINO-X

중국.. 군중에서 사람 세기 잘함
앞으로의 영향력 기대됨

Fashion-VDM

virtual 트라이온
랜더링을 해주는 테크닉
굉장히 어려운 기술
유떱에서 나옴
지난 10년간 cv에서 원천기술 나오면 그래픽스가 갖다써서 그래픽스를 발전시키는 방향이였다면 근 1,2년 오히려 siggraph가 먼저 임팩트있는 논문 제시

LLaVA 시리즈

VLM
LLaVA-o1 기가 막히게 reproduction을 잘함

유명한 학회

ICLR 아이클리어
통계가 공개가 되는데 오른쪽으로 갈수록 평균 점수가 높음
1차 결과..
아이클리어 학회 가장 큰 특징은 모든걸 공개한다!
photo realistic -> under리뷰라서 저자를 알 수가 없다.

Test-conditioned illuminationed illumination modifying

진우 멘토님 연구실 주목 페이퍼
레전드 리뷰 process
arXiv daily paper: https://arxiv.org/list/cs.CV/pastweek
Deep Learning Monitor: https://deeplearn.org
HuggingFace daily paper: https://huggingface.co/papersSAMURAI: https://github.com/yangchris11/samurai
DINO-X: https://arxiv.org/pdf/2411.14347
Fashion-VDM: https://johannakarras.github.io/Fashion-VDM/
LLaVA-o1: https://arxiv.org/pdf/2411.10440
ICLR2025 ratings: https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/
ICLR2025 highest-rated paper: https://openreview.net/forum?id=u1cQYxRI1H
Hymba: https://www.arxiv.org/abs/2411.13676

우리 프로젝트

손바닥 뼈의 이미지를 학습하는 데 어려움이 예상된다.이를 해결하기 위해 손등 부분만 크롭하여 초해상도(super-resolution)를 적용한 후, 이를 학습하고 추론하는 방식을 고려하고 있다.이 방법을 앙상블과 결합할 때, 추론 단계에서의 성능에 대한 우려가 있다.

기훈 님의 답변에 따르면, 아직 앙상블을 적용하지 않았지만, 테스트 세트 이미지를 크롭한 후 좌표를 추출하는 데 성공했다고 한다.다만, 리사이즈를 두 번 적용하기 때문에 약간의 오차가 발생할 수 있다.

멘토님께서는 모델을 추가로 개발해야 할지에 대한 질문에 대해, 현재 챌린지에서는 파라미터나 시간 제약이 없으므로 특화된 모델을 개발하는 것이 좋다고 조언하셨다.또한, 크롭을 할 때 긴 손가락을 포함하여 바운딩 박스를 설정하는 것이 어려울 수 있지만, 현재로서는 충분히 강건한 성능을 기대할 수 있다고 하셨다.바운딩 박스를 너무 타이트하게 설정하지 말고 여유롭게 잡는 것이 좋다고 말씀하셨다.

픽셀 단위로 임계값(threshold)을 0.5로 설정했을 때, 실제 값(GT)이 더 많이 나타나는 경향이 있다.멘토님께서는 수동으로 진행할 때 어려움이 있을 수 있지만, 현재는 사람이 분석하는 것이 비전 분야에서 더 빠를 수 있다고 하셨다.또한, 뼈별로 하이퍼파라미터를 조정할 부분이 많다고 언급하셨다.

코사인 스케줄러를 사용한 후, 커스텀 스케줄러를 적용했다.멘토님께서는 AdamW나 LION 옵티마이저, 스케줄러를 사용해도 성능이 크게 향상되지 않는 경우가 많다고 하셨다.SGD를 사용할 때는 보통 마지막에 학습률을 1/10 또는 1/100로 줄이고, 긴 에폭 동안 낮은 학습률로 학습한다고 하셨다.DETR이 매우 강력하며, 검출(detection)의 근본적인 문제를 해결했다고 평가하셨다.마지막에 학습률을 크게 줄이고 전체 에폭의 1/10 정도로 학습하는 것이 성능 향상에 도움이 될 수 있다고 조언하셨다.

멘토님께서는 최근 엔비디아에서 발표한 'Hymba'에 대해 언급하셨다.이는 LLM에서의 최적화를 통해 입력 길이를 줄이고, 슬라이딩 윈도우와 글로벌 어텐션을 결합한 모델이다.GPT도 잘하고 있지만, 더 효율적인 모델을 만들기 위한 노력이 계속되고 있다고 하셨다.또한, 16비트나 32비트가 과연 필요한지에 대한 의문을 제기하며, 8비트 정도는 정수, 32비트 정도는 소수로 세계를 이해하는 데 최적화된 비율인지에 대한 논의가 이루어지고 있다고 하셨다.

진영 님께서 TTA를 시도해보고 싶다고 하셨다.테스트 이미지의 크기가 정해져 있는 상황에서, 수평 반전(horizontal flip)이 그나마 유용할 수 있다고 생각하셨다.멘토님께서는 훈련 시에 없는 변형을 테스트 시에 적용하는 것이 좋을지에 대해 의문을 제기하셨다.엑스레이별로 밝기(intensity)가 다를 수 있으므로, 이러한 부분에 대해 TTA를 시도해볼 수 있지만, 성공 사례가 많지 않으며 쉬운 기술은 아니라고 하셨다.

개별멘토링

depth + 기존 모달리티
CUDA coding에 도전해보고 싶다

시간이 남을 것 같다 .. 컴퓨터 비전 분야가 뭐 있는지 정립
그 과정 안에서 로보틱스
폴리시를 정해야 되는게 있을 것 (게임이든 로봇이든) -> RL

앞으로 연구방향..
RL을 하더라도 심플한 테크닉이라도 왜 해야되는지 고민
가치창출을 해내야한다..
실제 product에 어떻게 활용 될 수 있을지 매핑해보기

창출할 수 있는 가치 대비 room이 있는지 파악하기
correspondence -> 어떤 것을 ?