AcWing
  • 首页
  • 课程
  • 题库
  • 更多
    • 竞赛
    • 题解
    • 分享
    • 问答
    • 应用
    • 校园
  • 关闭
    历史记录
    清除记录
    猜你想搜
    AcWing热点
  • App
  • 登录/注册

《神经网络与深度学习》学习笔记

作者: 作者的头像   wise233 ,  2025-06-07 17:30:19 · 黑龙江 ,  所有人可见 ,  阅读 5


0


第三章 线性模型(part2、3)

处理二分类问题时,为了解决连续的线性函数不适合进行分类的问题,我们引入非线性函数来预测类别标签的后验概率(假设标签为$y\in\{0,1\}$):
$$p(y=1|\boldsymbol{x})=g(f(\boldsymbol{x};\boldsymbol{\omega}))$$其中$g(\cdot)$通常称为激活函数(ActivationFunction),其作用是把线性函数的值域从实数区间“挤压”到了$(0,1)$之间,可以用来表示概率。

3.2 Logistic 回归(Logistic Regression,LR)

Logistic 回归就是使用Logistic 函数作为激活函数的线性模型,Logistic函数定义为:
$$\text{logistic}(x)=\frac{L}{1 + \text{exp}(-K(x-x_{0}))}$$其中,$x_{0}$是中心点,$L$是最大值,$K$是曲线的倾斜度,下图为不同参属下的Logistic函数:
屏幕截图 2025-06-07 160248.png
当参数为$(K=1,x_{0} =0,L=1)$时,Logistic函数称为标准Logistic函数,记为:
$$\sigma (x)=\frac{1}{1 + \text{exp}(-x)}$$则可得标签$y=1$的后验概率为:
$$p(y=1|\boldsymbol{x})=\sigma(\boldsymbol{\omega}^{T}\boldsymbol{x})$$ $$=\frac{1}{1 + \text{exp}(\boldsymbol{-\omega}^{T}\boldsymbol{x})}$$标签$y=0$的后验概率为:
$$p(y=0|\boldsymbol{x})=1-p(y=1|\boldsymbol{x}) $$ $$=\frac{\text{exp}(\boldsymbol{-\omega}^{T}\boldsymbol{x})}{1 + \text{exp}(\boldsymbol{-\omega}^{T}\boldsymbol{x})}$$将标签$y=1$的后验概率公式进行变换后得到:
$$\boldsymbol{\omega}^{T}\boldsymbol{x}=\text{log}\frac{p(y=1|\boldsymbol{x})}{1-p(y=1|\boldsymbol{x})}$$ $$=\text{log}\frac{p(y=1|\boldsymbol{x})}{p(y=0|\boldsymbol{x})}$$其中$\frac{p(y=1|\boldsymbol{x})}{p(y=0|\boldsymbol{x})}$为样本$\boldsymbol{x}$为正反例后验概率的比值,称为几率(Odds),几率的对数称为对数几率(LogOdds,或Logit),因此,Logistic回归也称为对数几率回归(LogitRegression)。下图为线性回归和Logistic回归来解决一维数据的二分类问题的示例图:
屏幕截图 2025-06-07 162115.png

3.2.1 参数学习

Logistic 回归采用交叉熵作为损失函数,并使用梯度下降法来对参数进行优化。将公式代入交叉熵损失函数后,忽略正则化项的风险函数可化简为:
$$\mathcal{R}(\boldsymbol{\omega})=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)}\text{log}\hat{y}^{(n)}+(1-y^{(n)})\text{log}(1-\hat{y}^{(n)}))$$这里可知,风险函数时关于参数$\boldsymbol{\omega}$的连续可导的凸函数,可以求偏导用梯度下降法求解参数,也可以用高阶的优化方法(比如牛顿法)来进行优化。

3.3 Softmax回归(Softmax Regression)

Softmax回归,也称为多项(Multinomial)或多类(Multi-Class)的Logistic回归,是Logistic回归在多分类问题上的推广。Softmax函数可以将多个标量映射为一个概率分布.对于$K$个标量$x_{1},\cdots,x_{k}$,Softmax函数定义为:
$$z_{k}=\text{softmax}(x_{k})=\frac{\text{exp}(x_{k})}{{\textstyle\sum_{i=1}^{K}}\text{exp}(x_{i})} $$这样,我们可以将$K$个标量$x_{1},\cdots,x_{k}$转换为一个分布:$z_{1},\cdots,z_{k}$,满足:
$$z_{k}\in(0,1)\wedge \sum_{k=1}^{K}z_{k}=1$$因此对于多类问题,类别标签$y\in\{1,\cdots,C\}$可以$C$个取值.给定一个样本$\boldsymbol{x}$,Softmax回归预测的属于类别$c$的条件概率为:
$$p(y=c|\boldsymbol{x})=\text{softmax}(\boldsymbol{\omega}_{c}^{T}\boldsymbol{x})$$ $$=\frac{\text{exp}(\boldsymbol{\omega}_{c}^{T}\boldsymbol{x})}{{\textstyle\sum_{c^{‘}=1}^{C}}\text{exp}(\boldsymbol{\omega}_{c^{‘}}^{T}\boldsymbol{x})} $$其中$\boldsymbol{\omega}_{c}$是第$c$类的权重向量。Softmax回归的决策函数可以表示为:
$$\hat{y}=\mathop{\text{arg max}}\limits_{c=1}^{C}p(y=c|\boldsymbol{x})$$ $$=\mathop{\text{arg max}}\limits_{c=1}^{C}\boldsymbol{\omega}_{c}^{T}\boldsymbol{x}$$

3.3.1 参数学习

Softmax回归采用交叉熵作为损失函数,并使用梯度下降法来对参数进行优化,代入交叉熵损失函数,Softmax回归模型忽略正则化项的风险函数为:
$$\mathcal{R}(\boldsymbol{W})=-\frac{1}{N}\sum_{n=1}^{N}(\boldsymbol{y}^{(n)})^{T}\text{log}\hat{\boldsymbol{y}}^{(n)}$$其中,其中$\boldsymbol{W}=[\boldsymbol{\omega}_{1},\cdots,\boldsymbol{\omega}_{c}]$是由$C$个类的权重向量组成的矩阵,$\boldsymbol{y}$是$C$维的one-hot向量,$\hat{\boldsymbol{y}}=\text{softmax}(\boldsymbol{W}^{T}\boldsymbol{x})$。对参数求偏导后通过梯度下降法学习参数。

0 评论

App 内打开
你确定删除吗?
1024
x

© 2018-2025 AcWing 版权所有  |  京ICP备2021015969号-2
用户协议  |  隐私政策  |  常见问题  |  联系我们
AcWing
请输入登录信息
更多登录方式: 微信图标 qq图标 qq图标
请输入绑定的邮箱地址
请输入注册信息