隐马尔科夫模型（HMM）

发表于 2018-11-18 更新于 2022-03-06 分类于机器学习， NLP 阅读次数： Valine：
本文字数： 4.8k 阅读时长 ≈ 4 分钟

前言

同时在LP 之分词技术概述中有提到 HMM 模型，虽然此方法在现代的作用和地位有所下降，但是依然是非常值得了解的学习机器学习经典算法。

Gibbs采样

发表于 2018-11-17 更新于 2022-03-06 分类于统计学阅读次数： Valine：
本文字数： 1.7k 阅读时长 ≈ 2 分钟

前言

M-H采样已经可以很好的解决蒙特卡罗方法需要的任意概率分布的样本集的问题。但是M-H采样有两个缺点：一是需要计算接受率，在高维时计算量大。并且由于接受率的原因导致算法收敛时间变长。二是有些高维数据，特征的条件概率分布好求，但是特征的联合分布不好求。因此需要一个好的方法来改进M-H采样，这就是我们下面讲到的Gibbs采样。

阅读全文 »

MCMC采样及M-H采样

发表于 2018-11-17 更新于 2022-03-06 分类于统计学阅读次数： Valine：
本文字数： 4.2k 阅读时长 ≈ 4 分钟

MCMC采样及M-H采样

前言

前面的文章已经说到给定一个概率平稳分布π, 只要能够其马尔科夫链状态转移矩阵P，我们就可以找到一种通用的概率分布采样方法，进而用于蒙特卡罗模拟。现在就学习下解决这个问题的办法：MCMC采样和它的易用版M-H采样。

如何能做到这一点呢？我们主要使用如下的定理。

阅读全文 »

NLP 之分词技术概述

发表于 2018-11-16 更新于 2022-03-06 分类于机器学习阅读次数： Valine：
本文字数： 2k 阅读时长 ≈ 2 分钟

前言

NLP 的问题领域中，首先的要解决核心问题就是分词。在英文以空格来作为天然的词语间隔的语言中，分词是非常容易的；但是在中文领域，词以汉字为单位组成，词语与词语之间并无天然的界限，句子或短语之间以标点符号作为间隔。这就导致在中文领域做 NLP 的前提是做好中文分词技术。

阅读全文 »

马尔科夫链及其采样方法

发表于 2018-11-16 更新于 2022-03-06 分类于统计学阅读次数： Valine：
本文字数： 3.9k 阅读时长 ≈ 4 分钟

前言

了解了什么是蒙特卡罗方法之后，自然引出了马尔可夫链这个概念，其在 WIKI 的解释如下：

马尔可夫链（英语：Markov chain），又称离散时间马尔可夫链（discrete-time Markov chain，缩写为DTMC），因俄国数学家安德烈·马尔可夫得名，为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。
在马尔可夫链的每一步，系统根据概率分布，可以从一个状态变到另一个状态，也可以保持当前状态。状态的改变叫做转移，与不同的状态改变相关的概率叫做转移概率。

阅读全文 »

蒙特卡罗方法概述

发表于 2018-11-16 更新于 2022-03-06 分类于机器学习阅读次数： Valine：
本文字数： 3k 阅读时长 ≈ 3 分钟

前言

作为一种随机采样方法，马尔科夫链蒙特卡罗（Markov Chain Monte Carlo，以下简称MCMC）在机器学习,深度学习以及自然语言处理等领域都有广泛的应用，是很多复杂算法求解的基础。

从名字我们可以看出，MCMC由两个MC组成，即蒙特卡罗方法（Monte Carlo Simulation，简称MC）和马尔科夫链（Markov Chain ，也简称MC）。要弄懂MCMC的原理我们首先得搞清楚蒙特卡罗方法和马尔科夫链的原理。

阅读全文 »

自剖

发表于 2018-11-01 更新于 2022-03-06 分类于心理学阅读次数： Valine：
本文字数： 2.2k 阅读时长 ≈ 2 分钟

说明前面

这是一篇去年差不多这个时候写的东西，现在读起来依然适用现在的自己。

最近这几天是真的有点不好受，昨晚几乎失眠了一整晚，缺少很多的东西，对未来看不清楚，对自己没有信心，心里面就充满了怀疑。

阅读全文 »

pytorch 自定义数据集及 Kaggle 101 数字识别

发表于 2018-10-29 更新于 2022-03-06 分类于深度学习阅读次数： Valine：
本文字数： 11k 阅读时长 ≈ 10 分钟

引言

前面的文章中使用 feed forward neural network 实现了简单的手写数字识别，但是这不能直接照搬到 kaggle上面，因为 kaggle 使用的数据集是 CSV 文件，因此需要自定义一个 pytorch 的数据类型，来完成这个入门题目。

本文的提纲如下:

自定义 Dataset
模型搭建保存与读取
阅读全文 »

全连接前向神经网络与手写数字的实践

发表于 2018-10-07 更新于 2022-03-06 分类于深度学习阅读次数： Valine：
本文字数： 5.9k 阅读时长 ≈ 5 分钟

引言

上一篇文章提到了 logistics regression 、多分类的 softmax 算法及梯度等概念，其实就可以很自然的引出深度学习了。

引用WiKi的定义：

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

早在1958年就提出了 perceptron 的模型，即最简单的线性感知机模型，在当时引起了很大的轰动，甚至提出了机器可以取代人的说法，然而后来就被人质疑，现在看来线性感知机的限制显而易见。

然后在20世纪80年代，根据之前 perceptron 提出了 multi-layer perceptron（又叫 Neural Network），这个模型和当今的深度神经网络是没有显著区别的。1986年提出了反向传播的概念，但是通常大于三层的 hidden layer 就没有效果了，神经网络学习出现了梯度消失的问题。

后来在 2006年，在上述神经网络的算法模型上，取得了一些改进（RBM initialization），将之前 multi-layer perceptron 改了个名字 —— Deep Learning 重新提了出来，2009年的时候 DL 的运算开始利用 GPU，后面其在各个领域取得了一些突破性的应用进展，就火起来了。

所以，深度学习并不是什么新鲜事物，只是换了个名字的稍微改进的旧模型。

阅读全文 »

logistic 算法及其在手写数字识别的实践

发表于 2018-09-05 更新于 2022-03-06 分类于机器学习阅读次数： Valine：
本文字数： 4.5k 阅读时长 ≈ 4 分钟

引言

逻辑斯谛回归（logistic regression）是统计学习中的经典分类算法。最大熵模型是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model). 逻辑斯谛回归模型与最大熵模型都是对数线性模型.

阅读全文 »