AI 부스트캠프(20)
-
[End...] 부스트캠프를 마치며...
2021년 8월부터 달려온 네이버 부스트캠프 AI tech 2기의 일정이 모두 끝났다. 약 5개월간 정말 많은 것을 배웠고, 경험할 수 있었다. Python의 기본 문법부터 최근 각광받고 있는 SOTA model인 Transformer까지 대회를 참가하며 실전을 경험했고, 마지막에는 OCR과 Serving까지 다룰 수 있었다. 부스트 캠프를 진행하는 도중 총 5번의 대회가 열렸었다. 나는 5개의 대회 모두 좋은 성적을 거둘 수 있었는데, 내가 좋아하는 분야를 공부한다는 마음에 누구보다 열심히 할 수 있었던 것 같다. Classification / Detection / Segmentation / OCR / Lightweight 순서대로 11등 / 6등 / 1등 / 2등 / 6등을 기록하며 마루리를 했다. ..
2022.01.03 -
[YOLOv5] train + inference 자세하게 알아보자
이번 Object Detection 컴페티션에서 내가 맡은 모델중 하나인 YOLOv5에 대해서 코드단까지 자세하게 설명하려 한다. YOLOv5 def. YOLOv5는 같은 One-stage detector인 EfficientDet보다 성능이 월등하게 좋아진 것을 볼 수 있다. 그럼 YOLOv5가 다른 YOLO version과 비교했을 때 갖는 장점은 무엇이 있을까? >>> backbone + head backbone : CSPNet(YOLOv4와 같음) CNN의 학습능력 강화 : 정확도를 유지하면서 경량화 가능 연산 Bottleneck 삭제 : v3 기준으로 bottleneck 80% 줄임 메모리의 cost 감소 Head : Anchor Box를 이용하여 Bounding Box를 생성한다 Preproce..
2021.10.09 -
[Detectron2] code level review
Detectron2 ? def. Facebook에서 만든 pytorch 기반으로 하고 Object detection/sementic segmentation을 위한 training/inference opensorce libary Why Detectron2 ? python에 최적화가 되어있다! 연산량이 많이 드는 코드는 C를 통해서 구현했다 box IOU, defromable convolution 부분등은 CUDA로 구현했다 Detectron2 Structure tools dir plain_train_net.py : 구조파악이 쉽지만, SGD를 이용한 학습만 지원하고 나머지 기능들은 지원하지 않는다 train_net.py : training iter가 추상화가 잘 되있기 때문에 실제 디버깅하는 부분에서 힘들..
2021.09.28 -
[Week6 & Day4] Image captioning
Architecture CNN part : input image를 Feature Tensor로 Encoding Pre-trianed 된 모델을 사용 모든 layer을 사용하는 것이 아닌 끝부분의 2개의 layer를 제거하고 사용한다. why? 가장 마지막 layer를 통과하면 logit형태, 그 직전 layer는 Feature vector 형태 공간정보를 유지해줘야되기 때문에 Pooling layer와 Linear layer 제거 encoder의 image size를 알고 있으면 편하다 encoder의 output으로 (channel size,14,14) 나오게 되면 RNN에 feeding class Encoder(nn.Module): def __init__(self, img_size = 14): sup..
2021.09.17 -
[Week6 & Day4] Multi-Modal Learning
def. 한 type이 아닌 다른 type의 데이터도 함께 사용하는 모델 시각 정보가 가장 중요한 정보 + 이외의 소리 or text 정보 활용 OverView 눈+귀 / 눈+입 = multi-modal(다중 감각) 도전과제 데이터의 표현방법이 모두 다른데, 이렇게 다른 차원들의 데이터를 어떻게 처리하지? ex) Audio = 1D / Image = 2D or 3D / Text = word에 대응되는 Embedding data 특징들 사이의 불균형 ex) 똑같은 shape을 가지고 있는 data는 여러개가 존재 / 즉 1 : N 매칭이 된다는 점 여러modality를 사용할때 fair하게 사용하면 더 좋게 학습되나? >>> 방해가 될때도 있다. 하나의 modality에 bias(편향)되는게 자주 발생한다..
2021.09.17 -
[Week6 & Day 3] Conditional Generative Model
Generative model vs Conditional generative model Generative model은 이미지나 샘플을 생성할 수 있지만, 조작이 불가하다. 반면에 Conditional generative model은 내가 원하는데로 응용 할 수 있다는 장점이있다. GAN GAN vs Conditional GAN Conditional GAN and Example Comparison of MAE, MSE and GAN losses Input Image를 검은색 or 흰색 두개만 준다면? >>> input image에 L1 loss를 이용하면 아웃풋이 회색으로 나온다 >>> GAN loss를 이용하면 output이 검은색이나 흰색으로 나온다 Image translation GANs Pix2P..
2021.09.16