Naver Ai Boostcamp 47

[Day 23] 군집 탐색

군집 구조 분석 📌 군집 구조와 군집 탐색 문제 군집 : 군집(Community)이란 다음 조건들을 만족하는 정점들의 집합 집합에 속하는 정점 사이에는 많은 간선이 존재 집합에 속하는 정점과 그렇지 않은 정점 사이에는 적은 수의 간선이 존재 실제 그래프에서도 군집들은 사회적 무리 / 조직 내 분란 등을 표현 군집탐색문제(community detection) : 그래프를 여러 군집으로 '잘' 나누는 문제, 클러스터링과 유사하지만 나뉘는 개체가 "정점" 그렇다면 "잘 나눴다"의 기준은 뭘까? 📌 군집 구조의 통계적 유의성과 군집성 배치모형 1 ) 각 정점의 연결성(Degree)를 보존한 상태 , 2 ) 간선들을 무작위로 재배치 하여 얻은 그래프를 의미한다. 각 정점에서 나가는 , 들어오는 간선의 수는 유지하..

Naver Ai Boostcamp 2021.02.24

[Day 22] 페이지랭크 & 전파 모델

📌 학습목표 페이지랭크 알고리즘이 어떻게 동작하는지 페이지 랭크의 문제점과 이를 해결할 수 있는 알고리즘 전파를 모델링 하는 간단한 수학적 모형들 주어진 그래프와 규칙에서 전파를 최대화 하는 천파 최대화 문제에서 어떻게 전파가 이루어지는지 📌검색엔진 Google 의 시작 이 블로그에서 랭크 알고리즘에 대해 되게 멋지게 설명한다. “Google”이라는 230조원짜리 회사가 처음 시작된 곳이 바로 이 세르게이 브린과 래리 페이지가 쓴 논문(The Anatomy of a Large-Scale Hypertextual Web Search Engine)이었다" 구글 이전의 검색엔진은 웹을 거대한 디렉토리로 정리했다. 블로그를 쓰는 사람이라면 알겠지만, 자신의 블로그를 하나의 디렉토리로 정하는 게 상당히 어렵다. 나..

Naver Ai Boostcamp 2021.02.23

[Day 21] 그래프 이론 기초 & 그래프 패턴

📌 학습목표 정점, 간선, 방향성, 가중치 등의 정의들을 명확하게 이해 실제 그래프의 다양한 패턴에 집중 📌 그래프 기초 그래프란? 그래프는 정점 집합과 간선집합으로 이루어진 수학적 구조를 얘기한다. 동그라미 혹은 점들을 정점이라 부르고, 그 점들을 잇는 선을 간선이라고 한다. 정점들의 집합을 V , 간선들의 집합을 E , 그래프를 G = (V,E)라고 적는다. 그래프는 네트워크 , 정점은 노드, 간선은 엣지 혹은 링크라고도 불린다. 두 정점을 간선으로 이어 두 정점이 연결됐다는 것을 나타낸다. 생각해보면 우리가 어렸을 때 그리던 "마인드맵"도 그래프다. 그래프는 크게 "방향의 유무", "가중치의 유무" ,"정점의 종류"등에 의해 구분된다. 여기서는 간단하게만 다루고, 알고리즘에서 사용되는 더 다양한 그..

Naver Ai Boostcamp 2021.02.22

[DAY 20] self-supervised pretrained model - Bert , GPT

오늘 수업 내용은 이전 내용들과는 다른 의미로 너무 어렵다;; 최신동향이라 그런가,,, 완벽히 이해하겠다! 보다는 이런 컨셉으로 흘러가고있구나. 정도만 이해하는데 타협했다. DeepMind 소속의 Sebastian Ruder가 매년 블로그를 통해 발행하는 ML and NLP Research Highlights 의 2020년 버전 중 자연어 처리와 관련된 이야기만 번역한 포스트 KAKAO BRAIN에서 발행한 2018-2020 NLP 연구동향 NLP에는 많은 분야가 있지만, 자연어 이해 NLU(Natural Language Understanding) , 자연어 생성 NLG(Natural Language Generation)를 핵심과제로 꼽아볼 수 있다고 한다. 생각해보면 주변에 CV를 하는 사람 혹은 관심..

Naver Ai Boostcamp 2021.02.20

[DAY 19] Transformer

14일차 최성준 교수님의 강의 + 19일차 주재걸 교수님의 강의를 듣고 학습정리한 내용입니다. Transformer 90년대 이전 생이라면 가족오락관의 을 한번씩 봤을 거다. 어떤 단어를 외쳐서 뒷사람에게 넘기고 넘기고 넘겨서 그 단어가 뭔지 마지막 사람이 맞추는 게임이다. 첫 번째 사람이 말한 단어가 점점 뒤로 갈수록 이상한 단어가 되곤 한다. "미꾸라지"로 시작된 단어가 "비누다시"가 되는 놀라운 기적을 엿볼 수 있다. Seq2seq가 딱 이렇다. 물론 귀를 막진 않고 정확한 정보를 넘겨주긴 하지만 길면 길어질수록 첫 번째 단어에 대한 정보를 점점 잃어간다. 우린 이런 문제를 "Long term dependency"라고 한다. RNN을 사용하면 attention 을 추가하고, LSTM으로 바꿔도 순차..

Naver Ai Boostcamp 2021.02.18

[DAY 18] Seq2seq , beam search , BLEU

sequ2seq with attention📌 seq2seq 한국사람이라면 한 번쯤은 papago를 사용해봤을 겁니다. 저도 영어논문을 읽다 이해가 안되면 파파고를 돌려봅니다 ㅎ 기계번역 (Machine Translation)이란 task는 source language(영어)에서 target language(한국어)로 번역해주는 task를 얘기합니다. 1950년대 초반부터 기계번역이 시작되었고, 2010년도까지는 통계적인 방식에 의존해 번역을 진행했습니다. 2014년도 NMT (Neural Machine Translation)가 neural network를 이용하여 기계번역을 하며 엄청난 변화를 가져왔다고 합니다. 얼마나 대단하면 cs224n강좌 ppt에 이런 그림이 있을까요 ㅋㅋ; 그리고 NMT를 가능하..

Naver Ai Boostcamp 2021.02.17