Michael's Website

November 29, 201607:07 PM

Deep Learning Study Ch#05

Deep Learning Study Ch#05

random 도 숫자를 정해서 계속 쓴다.
Shuffling도 정해서 쓴다.
구글은 영어랑 한국어랑 다 같이 한다.
실제로는 random 안한다. P90
- Random은 느리다.
실제로 가능한 hyperparameter가 정해져 있다. cpu, gpu 한게 때문에
random으로 hyperparameter 정할 것이 별로 없다.
training이 너무 오래걸리면 못한다.
quasi-monte_carlo_method
pseudorandom sequence, vs low-discrepancy sequence (sobol sequence)
항상 random이 좋은 건 아니다.

ch#06

Parameter updates

실제로는 second order를 잘 쓰지않는데, 최근에 연구를 이것으로 많이 한단다.
Hessian -> BFGS

Evaulation: Model Ensembles

어떻게 overfitting을 해결하나? ensemble, dropout
jittering을 해결하는 것: 시드를 나눴는데. 시드 3개가 다 같은 모델인데. 시드가 다르면 같은 모델이라도 웨이트가 다르게 나오는데 걔네를 돌려서 그 값에 voting을 해서 ensanble에 의해서
ensamble -> random forest: 곧바로 답이 나온다고?
https://en.wikipedia.org/wiki/Random_forest
10만개 데이터 몇 초에 결과
http://image-net.org/challenges/talks/2016/GRMI-COCO-slidedeck.pdf
overfitting: 한데이터에 너무 최적화된 모델
solution:
- more training data
- reduce
- regulaization
let’s not have too big numbers in the loss function
l2reg = 0.001 * tf.reduced_sum(tf.square(W))
fun tips/tricks
- can also get a small bootst from average model checkpoints of single model
- checkpoint = data dump p48
- ensembles -> x_test = 0.995 _ x_test + 0.005 _ x

Regularization(Dropout)

Convolutional Neural Networks: intro

Popular

Mecab ko와 은전한닢 프로젝트 사전 설치하기

Sep 10, 2023

Accessing Google Cloud SQL from Local Machine with Cloud SQL Auth Proxy

Jun 26, 2023

Direnv with .env file

Jan 4, 2023

Postgres Useful Tips

Aug 27, 2022

GCSFuse

Aug 25, 2022

Streetline Kubernetes Migration

Mar 30, 2019

CrazyQ: Bardel's Inhouse Render Farm

Jan 14, 2012

Latest

Mecab ko와 은전한닢 프로젝트 사전 설치하기

Sep 10, 2023

Accessing Google Cloud SQL from Local Machine with Cloud SQL Auth Proxy

Jun 26, 2023

How to remove "the gcp auth plugin is deprecated in v1.22+"

May 12, 2023

How to run Alpaca.cpp

Mar 27, 2023

Direnv with .env file

Jan 4, 2023

Securing Mongo DB

Jan 2, 2023

Postgres Useful Tips

Aug 27, 2022

Category