数学基础

1. 给定两个矩阵，怎么计算它们之间的相乘？怎么计算一个矩阵的inverse?

。
$A = [[1,3],[2,5]], B[[4,1],[2,4]]，A*B=? A^{-1}=?$

两个矩阵的相乘，就是各个位置元素的相乘。

一范式是向量的绝对值之和：3+1+5+1 = 10;
二范式是向量元素的绝对值的平方和再开方：sqrt(9+1+25+1)=6

F-范数:矩阵A各项元素的绝对值平方和开方
向量范数和矩阵范数的区别：

首先是向量和矩阵的区别：为了更好的在数学上表达集合的映射关系，这里引入了矩阵。矩阵就是表征空间映射关系，向量是用来表示映射中的集合。一个集合(向量)通过一个映射关系(矩阵)，得到另外一个集合(向量)；
向量的范数：表示原有集合的大小；矩阵的范数：表示这个变化过程大小的一个度量；

矩阵行列式是指矩阵的全部元素构成的行列式，设 $A=(a_{ij})$

实数在计算机内用二进制表示，所以不是一个精确值，当数值过小的时候，被四舍五入为0，这就是下溢出。此时如果对这个数再做某些运算（例如除以它）就会出问题。反之，当数值过大的时候，被视为（正负）无穷，情况就变成了上溢出；
加log是为了将乘除转变为加减运算，一是为了简化运算，二是为了避免出现上下溢出的情况；

信息熵是信息量的定量描述，是随机变量抽样得到的分布中产生的信息量的平均值：
$-sum_{i=1}^{infty}P(x_i)logP(x)$

信息量：信息量可以被看做是在学习x的值时的“惊讶程度”，当一个相当于不可能的事件发生时，信息量(惊讶程度)越大；当一个事情一定会发生时，信息量(惊讶程度)越小；
由此将信息内容的度量与概率分布P(x)挂钩，将信息内容的度量依赖于概率分布P(x)，信息内容h(x)是概率P(x)的单调递减函数；
不相关的事件X、Y，X和Y同时发生的概率为：P(X,Y) = P(X)P(Y)，X和Y同时发生的信息量应是：h(X, Y) = h(X)+h(Y)，根据这个变乘为加的关系，可以考虑引入log来表示h(X)，于是可以有：
$或者$
对随机变量抽样所获得的平均信息量，就是关于概率分布P(x)的期望(以第一种表达方式为例)：
$-sum_{i=1}^{infty}P(x_i)logP(x)$

参考blog链接：https://blog.csdn.net/pipisorry/article/details/51695283

互信息是用来度量随机变量X 和随机变量 Y 共享的信息：表示已知X时，有多大程度可以确定Y，这个多大程度就是X提供的Y的信息量。是变量间相互依赖性的量度，表示联合分布P(X,Y)和分解的边缘分布的乘积P(X)P(Y)的相似程度。

参考blog：https://www.cnblogs.com/gatherstars/p/6004075.html

softmax函数可以表示为： ${e^{x_i}}{sum_{j=1}^{n}{e^{x_j}}} ,j=1,,,n$
softmax的功能就是将输入的值映射成为(0,1)的值，而映射后的值累加和为1（满足概率的性质），那么我们就可以将映射后的值理解成概率，在最后选取输出结点的时候，我们就可以选取概率最大（也就是值对应最大的）结点，作为预测目标。如图：
当z的值极其大时，分子计算 $e^x$
解决方法一：将 $f(x_i)$