深度学习-基础知识

前言

emmm…

线性代数

数据类型

  • 标量
  • 向量
  • 矩阵
  • 张量:一个数组中的元素分布在若干维坐标的规则网络中。

逆矩阵

A^(-1)A = I_n

存在条件

A是一个方阵,且所有列向量都是线性无关的,

  1. Ax = b (A是已知矩阵,x是未知向量,b是已知向量)
    对于任意向量b都恰好存在一个解,即该矩阵至多有m个列向量。
  1. 矩阵的行列式不等于0
  2. 矩阵为满秩矩阵
  3. R(A) = n(秩为n)

生成子空间

一组向量的生成子空间是原始向量线性组合后所能抵达的点的集合 (从原点A经过向量x,可以到达向量b,即b的集合)

线性无关

一组向量中的任意一个向量都不能表示成其他的向量的线性组合,则该组向量为线性无关
对于每一个向量b的取值都有解的充分必要条件:矩阵A必须包含至少一组m个线性无关的向量。

范数

将向量映射到非负值的函数。

范数满足条件:

  • f(x) = 0 => x= 0
  • f(x+y) <= f(x) + f(y)
  • ∀a∈R,f(ax)=|a|f(x)

欧几里得范数

表示从原点出发到向量x确定的点的欧几里得距离。表示为||x||

正交

X^Ty = 0 向量x和向量y互相正交。

正交矩阵

A^TA = AA^T = I
即 A^(-1) = A^T

特征值和特征向量

  • 特征向量:
    • A的特征向量指,与A相乘后相当于对该向量进行缩放的非零向量v
    • Av = Uv(U被称为这个特征向量对应的特征值)
    • 如果v是A的特征向量,任何缩放后的向量sv也是A的特征向量且与v有相同的特征值。
  • A = Q∧Q^T(Q是A的特征向量组成的正交矩阵,∧是对角矩阵)
  • 特征分解
    • 特征向量v组合成一个矩阵,每一列是一个特征向量
    • 特征值连接成一个特征向量
    • 特征分解记作:A=Vdiag(U)V^(-1)

奇异值分解

  • 每一个矩阵不一定有特征分解,但都有一个奇异值分解
  • 奇异值和奇异向量
  • A = UDV^(-1)
    • A是一个mn的矩阵,U是一个mm的矩阵,D是一个mn的矩阵,V是一个nn的矩阵。
    • 对角矩阵D对角线上的元素被称为奇异值,U的列向量称为左奇异向量,V称为右奇异向量。
    • AA^T的特征向量是 左奇异向量, A^TA的特征向量是A的 右奇异向量

迹运算

返回矩阵对角元素的和

行列式

det(A)
将方阵A映射到实数,行列式等于矩阵特征值的乘积。

矩阵的秩

  1. 记作 R(A)
  2. 设矩阵A,有r阶子式不为0,任何r+1阶子式全为0,则称r为矩阵的秩。
  3. 秩r是A中非零的子式的最高阶数
  4. 秩是图像经过矩阵变换之后的空间维度
  5. 秩是列空间的维度

概率分布

用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。

联合概率分布

离散型变量的概率分布可以用到概率质量函数P(x)
概率质量函数可以同时作用于多个随机变量,这种多个变量的概率分布被称为联合概率分布P(X=x,Y=y)。

概率密度函数

对象是连续型随机变量时,我们用概率密度函数来描述它的概率分布。

边缘概率分布

已知一组变量的联合概率分布,其中一个子集的概率分布称为边缘概率分布

条件概率

P(Y=y|X=x) = P(Y=y, X=x)/P(X=x)

独立性和条件独立性

  • 两个随机变量x和y,如果它们的概率分布可以表示成两个因子的成绩形式,则 相互独立:
    • P(X=x,Y=y) = P(X=x)P(Y=y)
  • 如果关于x和Y的条件概率分布对于z的每一个值都可以写成乘积的形式,那么这两个随机变量x和y在给定随机变量z时是 条件独立
    • P(X=x,Y=y | Z=z) = P(X=x|Z=z)|P(Y=y|Z=z)
  • 若两个变量相互独立,那么它们的协方差为0。

常见分布

  • Bernoulli分布(0-1分布)
  • Multinoulli分布
  • 高斯分布(正态分布)

贝叶斯规则

P(x|y) = P(x)P(y|x)/P(y)
其中 P(y) = ∑x P(y|x)P(x)