Deep Learning Study Ch#05

  • random 도 숫자를 정해서 계속 쓴다.
  • Shuffling도 정해서 쓴다.
  • 구글은 영어랑 한국어랑 다 같이 한다.
  • 실제로는 random 안한다. P90
    • Random은 느리다.
  • 실제로 가능한 hyperparameter가 정해져 있다. cpu, gpu 한게 때문에
  • random으로 hyperparameter 정할 것이 별로 없다.
  • training이 너무 오래걸리면 못한다.
  • quasi-monte_carlo_method
  • pseudorandom sequence, vs low-discrepancy sequence (sobol sequence)
  • 항상 random이 좋은 건 아니다.

ch#06

Parameter updates

  • 실제로는 second order를 잘 쓰지않는데, 최근에 연구를 이것으로 많이 한단다.
  • Hessian -> BFGS

Evaulation: Model Ensembles

  • 어떻게 overfitting을 해결하나? ensemble, dropout
  • jittering을 해결하는 것: 시드를 나눴는데. 시드 3개가 다 같은 모델인데. 시드가 다르면 같은 모델이라도 웨이트가 다르게 나오는데 걔네를 돌려서 그 값에 voting을 해서 ensanble에 의해서
  • ensamble -> random forest: 곧바로 답이 나온다고?
  • https://en.wikipedia.org/wiki/Random_forest
  • 10만개 데이터 몇 초에 결과
  • http://image-net.org/challenges/talks/2016/GRMI-COCO-slidedeck.pdf
  • overfitting: 한데이터에 너무 최적화된 모델
  • solution:
    • more training data
    • reduce
    • regulaization
  • let’s not have too big numbers in the loss function
  • l2reg = 0.001 * tf.reduced_sum(tf.square(W))
  • fun tips/tricks
    • can also get a small bootst from average model checkpoints of single model
    • checkpoint = data dump p48
    • ensembles -> x_test = 0.995 * x_test + 0.005 * x

Regularization(Dropout)

Convolutional Neural Networks: intro

COMMENTS