Super Kawaii Cute Cat Kaoani '수업정리/딥러닝 이론' 카테고리의 글 목록 (3 Page)
728x90

수업정리/딥러닝 이론 30

딥러닝 수업정리) 07_Hyperparameter Tuning and Batch Normalization

HyperparmetersTry random values: Don’t use a grid→ 왼쪽처럼 grid 형태로 parameter를 발생시키지 마라!→ 오른쪽 처럼 random하게 parameter를 발생시켰을 때 성능 좋은 parameter를 더 빨리 찾을 수 있다.💡이유: parameter마다 민감도가 다르기 때문!Coarse to fineAppropriate scale for hyperparameter💡그래서 이 부분에서는 log scale에 uniform하도록 랜덤하게 해주는 것이 좋다! Hyperparmeters for exponentially weighted averages → β 가 0.9~0.9005 사이일 때는 별로 안중요함. 정밀하게 세팅할 필요가 없음→ β 가 0.9990~0.99..

딥러닝 수업정리) 06_Optimization Algorithms

저번시간에는 effectiveness를 좋게 하기 위한 regularization을 배웠음(퀄리티를 좋게 하기 위한 방법)이번 시간에는 efficiency를 좋게 하기 위한 optimization algorithm을 배울거임machine learning은 highly empirical process임→ 결과보고 tuning을 하는 과정이 계속 필요함deep learning은 big data를 가정하고 하는거!💡dataset도 크고 empirical process이기 때문에 training을 빨리하는 것이 매우 중요함 Batch vs mini-batch gradient descent우리 training data 전체를 하나의 matrix로 만들어서 계산했었음→ 근데 이 방법은 training data가 너..

딥러닝 수업정리) 05_Setup and Regularization for training

effectiveness 와 efficiency는 다름→ effectiveness는 quality를 의미→ efficiency는 서비스 수행하는데 필요한 자원의 양(시간, 메모리)을 따지는거빠른데 메모리 엄청 많이 필요하고 이러면 efficiency 안좋은거사람 인식 진짜 정확하게 하는데 1년 걸리고 이러면 efficiency 안좋은거→ 오늘 배우는 regularziation은 effectiveness를 위한거즉 퀄리티를 높이기기 위한거!Train/Dev/Test Sets💡Data를 전부 training data로 쓰는게 아님! 일부는 성능 평가하는걸로 사용해야함→ 만약 training할 때 쓴 data로 성능평가하는데 사용한다면 성능이 왜곡될거임feature를 학습한게 아니라 그냥 외운건데 성능이 좋게..

딥러닝 수업정리) 04_Deep Neural Network (Multi-Layered Perception, MLP)

What is a deep neural network?hidden layer가 2개 이상이면 deep neural network임→ hidden layer 없거나 1개면 “shallow” network→ hidden layer 2개 이상이면 “deep” networkDeep neural network notation→ 이때 input data를 가상의 뉴런의 출력값으로 봄x=a[0]x = a^{[0]}x=a[0]→ 마지막으로 출력되는 값은 이렇게 표현Forward propagation in deep neural networkForward propagation in deep networktraining data 하나에 대한 forward propagation → 그냥 이런식으로 우리가 알던대로 진행→ 그..

딥러닝 수업정리) 03_Shallow Neural Network

deep neural net을 배우기 전에 shallow neural net 먼저 배울거임What is Neural Network이제 뉴런 하나 쓰는게 아니라 뉴런 4개 쓰고 있음총 4개의 logistic regression이 2개의 layer로 연결된 상태표기에서 [i] → 이건 i 번째 layer 의미표기에서 (i) → 이건 i 번째 training data라는 의미training data가  이런식으로 주어질거임computation graph로 나타내면Neural Network Representationtraining data는 Input layer의 값과 output layer의 값으로 주어짐근데 중간 layer의 값은 실제로 값을 넣어봐야 나오는거기 때문에 training data에서 값을 명..

딥러닝 수업정리) 02_WramingUp-Logistic Regression

Logistic Regression: 이건 출력값이 binary 함 (0/1, true/false) → 이렇더라도 함수를 modeling할 때는 연속적인 함수를 씀→ 함수의 출력 값을 확률로 modeling해서 1에 가까우면 true로 판단, 0에 가까우면 false로 판단Binary Classificationneural net model 학습해서 사진 vector 값 주어지면 고양이 맞는지 아닌지 판단해서 결과값을 1 또는 0으로 맞추게 하는 함수를 만듬이 함수는 logistic regression 기법으로 modeling할 수 있음input은 아주 많은 픽셀들을 하나의 벡터로 만든거→ 각 숫자가 의미하는건 해당 픽셀의 각 color의 density→ 만약 사진이 64X64라면 → 사진의 dimensi..

딥러닝 수업정리) 01_Quick Introduction

AI(Artificial Intelligence) Artificial Intelligence(인공지능)→ 기계가 지능을 가진 것처럼 행동하도록 연구하는 분야→ 지능에는 high level, low level이 있음high level: 추상적 사고가 가능한가?를 기준으로 지능인지 판단함low level: 금붕어가 먹이 줄려고 하면 뻐끔거리는거, 모기가 살기 위해 피하는것과 같은것도 지능으로 봄⇒ 이렇게 지능은 사람마다 다르게 정의할 수 있음⇒ 우리 수업 시간에는 지능을 high level 기준으로 생각할거임Machine Learning(머신러닝)→ 고등학교 때까지 배운건 deduction(연역)만유인력 법칙 배우고, 공 어디 떨어질지 계산요약하면, 지식, 수학적 모델을 배우고 이걸로 data를 줬을 때 결..

MoE(ME) model

Mixture of Expert model Mixture of Experts model는 ME 또는 MoE model이라고 부른다. 복잡한 문제를 최대한 단순하게 분리하며, 이렇게 단순화된 해는 합쳐져서 최종적인 해를 산출하는 분리와 해결의 원리를 이용한다. 각 expert network는 Input Vector에 대한 Output Vector를 생성한다. Gating Network는 Input vector x를 받아 input space에서 각 지점으로 분할하는 스칼라 결과를 생성한다. Input Network에서 Expert Network에 대한 확률로서의 linear combination을 제공하기 때문에 ME network의 최종 결과는 expert network들에 의해 생성되는 모든 Outpu..

CVAE 설명

Conditional VAE Conditional VAE는 이름에서도 알수있듯이 VAE에 Condition을 부여하게 된다. 앞서 살펴본 VAE는 latent space가 임의로 sampling되면 VAE는 어떤 숫자가 샘플링될지 제어할 수 없다. 하지만 CVAE는 생성할 숫자의 조건(one-hot lable)을 도입함으로써 이 문제를 해결할 수 있다. 이 조건은 Encoder와 Decoder에 모두 제공된다 . Vanila VAE와 Conditional VAE의 차이를 비교해보자. VAE와 비교했을 때 Conditional VAE에서 두드러지게 나타나는 차이점은 y라는 노드가 새로 추가된다는 점이다. Conditional VAE에서는 y(label 정보)를 알고 있다면 Encoder와 Decoder에 ..

VAE 설명

들어가기에 앞서 * AE와 VAE는 이름이 유사하지만, 수학적으로는 아무런 관련이 없음 * VAE는 Generative model임! * Generative model? training data가 주어졌을 때 이 data가 sampling 된 분포와 같은 분포에서 새로운 sample을 생성하는 model 즉 p_model(x)가 최대한 p_data(x)에 가깝게 만드는 것이 목표이다. 따라서 얼마나 기존 모델과 가까운 것인가에 대한 지표를 만들어야 하며 그 차이를 최소화하는 방향으로 업데이트함 VAE란? VAE는 Input image X를 잘 설명하는 feature를 추출하여 Latent vector z에 담고, 이 Latent vector z를 통해 X와 유사하지만 완전히 새로운 데이터를 생성해내는 것..

728x90
728x90