- random 도 숫자를 정해서 계속 쓴다.
- Shuffling도 정해서 쓴다.
- 구글은 영어랑 한국어랑 다 같이 한다.
- 실제로는 random 안한다. P90
- Random은 느리다.
- 실제로 가능한 hyperparameter가 정해져 있다. cpu, gpu 한게 때문에
- random으로 hyperparameter 정할 것이 별로 없다.
- training이 너무 오래걸리면 못한다.
- quasi-monte_carlo_method
- pseudorandom sequence, vs low-discrepancy sequence (sobol sequence)
- 항상 random이 좋은 건 아니다.
ch#06
Parameter updates
- 실제로는 second order를 잘 쓰지않는데, 최근에 연구를 이것으로 많이 한단다.
- Hessian -> BFGS
Evaulation: Model Ensembles
- 어떻게 overfitting을 해결하나? ensemble, dropout
- jittering을 해결하는 것: 시드를 나눴는데. 시드 3개가 다 같은 모델인데. 시드가 다르면 같은 모델이라도 웨이트가 다르게 나오는데 걔네를 돌려서 그 값에 voting을 해서 ensanble에 의해서
- ensamble -> random forest: 곧바로 답이 나온다고?
- https://en.wikipedia.org/wiki/Random_forest
- 10만개 데이터 몇 초에 결과
- http://image-net.org/challenges/talks/2016/GRMI-COCO-slidedeck.pdf
- overfitting: 한데이터에 너무 최적화된 모델
- solution:
- more training data
- reduce
- regulaization
- let’s not have too big numbers in the loss function
- l2reg = 0.001 * tf.reduced_sum(tf.square(W))
- fun tips/tricks
- can also get a small bootst from average model checkpoints of single model
- checkpoint = data dump p48
- ensembles -> x_test = 0.995 _ x_test + 0.005 _ x