t-SNE

t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法，是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外，t-SNE 是一种非线性降维算法，非常适用于高维数据降维到2维或者3维，进行可视化。相对于PCA来说，t-SNE更适合高维数据可视化.

SNE 通过将数据点间的欧几里德距离转化为条件概率而表征相似性：

如果以数据点在为中心的高斯分布所占的概率密度为标准选择近邻，那么就代表将选择作为它的近邻。对于相近的数据点，条件概率是相对较高的，然而对于分离的数据点，几乎是无穷小量（若高斯分布的方差选择合理）。

其中是以数据点为均值的高斯分布标准差，决定值的方法将在本章后一部分讨论。因为我们只对成对相似性的建模感兴趣，所以可以令的值为零。

现在引入矩阵 Y，Y 是 N*2 阶矩阵，即输入矩阵 X 的 2 维表征。基于矩阵 Y，我们可以构建一个分布 q，其形式与 p 类似。

对于高维数据点和在低维空间中的映射点和，计算一个相似的条件概率是可以实现的。我们将计算条件概率中用到的高斯分布的方差设置为 1/2。因此我们可以对映射的低维数据点和之间的相似度进行建模：

我们的总体目标是选择 Y 中的一个数据点，然后其令条件概率分布 q 近似于 p。这一步可以通过最小化两个分布之间的 KL 散度（损失函数）而实现，这一过程可以定义为：

因为我们希望能最小化该损失函数，所以我们可以使用梯度下降进行迭代更新，我们可能对如何迭代感兴趣，但我们会在后文讨论与实现。

参考:
https://nlml.github.io/in-raw-numpy/in-raw-numpy-t-sne/
http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf