- BERT 학습의 단계 1. Tokenizer 만들기 2. 데이터셋 확보 3. Next sentence prediction(NSP) 4. Masking - Domain-specific task의 경우 처음부터 직접 새로 학습하는 것이 성능이 더 좋다. 가장 중요한 것은 개인정보가 없는! 저작권 문제가 해결된! 데이터 셋을 사용해야 한다. 모델이 개인정보를 학습할 수가 있기 때문이다! 최근 이루다 이슈를 생각해보면 바로 느낌이 온다. 미국 전 대통령 오바마를 가지고 한 번 예시를 들어보자. 항상 tokenizer는 잘 되는지 확인 먼저! print(tokenizer('이순신은 조선 중기의 무신이다.')) {'input_ids': [101, 9638, 119064, 25387, 10892, 59906, 9..