gradient descent: 例如求一个函数最值 用x-x的导数的函数值*learning rate 当x不再变化的时候,就代表我们找到的极值 learning rate就是控制减多少,不会一次过变化太多