Naver Ai Boostcamp

[DAY 35] Multi-modal & 3D Understanding

잡담연구소 2021. 3. 25. 04:52

📌Multi-model 

 

  • Multi modal learning :다양한 형태의 데이터 (이미지, 텍스트,음성 등)을 input을 받아 한 번에 학습시키는 것

 

  • Multi modal learning의 문제점
    1.  데이터별 상이한 표현
      : 음성 1d , 이미지 2d , 텍스트는 embedding을 통한 단어별 feature vector로 표현하는 등 데이터별 표현방법이 다르다.
    2.  feature space 간 불균형
      : 예를 들어 text와 image 데이터 사이의 관계가 m : n 다대다 구조
    3.  편향된 학습법
      : 쉬운 특정 데이터 타입에 편향되어 학습이 이뤄질 수 있다. 

 

  • Multi modal learning의 종류 

1. Matching 

ex ) Image tagging , ­ Image&food recipe retrieval 

 

2. Translalting 

ex ) Image captioning , show and tell , text to image by generative model

 

3. Referencing

ex ) visual question answerling 

 

 

 

📌 3D Understanding

 

  • 3D의 중요성 

우리가 사는 세계는 3D이기 때문이다.

우리는 3D 세상을 사영시켜 2D image로 본다. 

 

 

  • 3D의 표현법

2D image의 표현법과는 다르다. 

여러 관점에서 바라봐 보간하는 multi-view images부터 포인트들을 하나의 정점으로 나타내고 점들끼리 삼각형으로 잇는 Mesh법까지 다양하다. 

 

 

  • 3D tasks

3d recognition , detection , segemtation 등 2d와 동일하게 여러가지 task를 할 수 있다.

주로 "자율주행"에서 특히 많이 쓰이는 거 같다. 

3d 이미지를 생성할 수도 있다. 

Mesg RCNN의 경우 MaskRCNN에서 mask branch를 mesh로 바꿔준다. 

 

하루 정리

1시간 짜리 강의에 논문만 15편이 소개된다.

이걸 하루 안에 소화하는 건 무리고, 되지도 않는다. 

오늘의 학습목표는 multi-modal, 3d와 같은 평소 접해보지 않은 개념들에 대해 알고, 아 이런 것도 있구나 느끼기! 

추후에 쓸 일이 있으면 "아 공부할 때 이런 것도 있던 거 같은데,,?" 하면서 찾아볼 수만 있다면 150% 성공이라 생각한다.

 

최근에 슬럼프? (슬럼프는 잘하는 사람한테만 오는 건데 ...? 그럼 나한텐 온 건 뭐야;ㅜ) 비슷하게 왔었는데 조원들 덕분에 극복했다. 

우리 중에 유일한 j인 보현님의 스케줄대로 공부하기 위해서 아침 10시부터 줌을 키고 다같이 공부한다. 

🎉 알렉스터디카페 개장 🎉

혼자였다면 10시에 출첵만 하고 잠들었을텐데, 조원들 덕분에 아침부터 책상 앞에 앉게 된다.

아침 10시부터 꾸준히, 해야되는 일부터 공부하는 보현님 존경,,, 아침햇살 같은 조원🌞 

 

수업시간에 배운 hourglass를 이용해 keypoint detection을 다시 학습시켜봤는데 흠,,, 

val에 대해선 꽤 정확히 잘 그려지는데,,, test 점수는 최악이다.

augmentation을 추가하고, batch를 줄이더라도 resolution을 높히는 방식으로 다시 접근해봐야겠다.