梵 高 先 生


  • 首页

  • 标签

  • 分类

  • 归档

  • 关于

  • 搜索

GBDT算法原理解析

发表于 2018-11-16 | 分类于 机器学习 |
本文为博客GBDT算法原理深入解析和博客xgboost的原理没你想像的那么难的摘抄,这两篇文章写得通俗易懂,所以就将两个文章写得较好的部分整合摘抄形成本博文。 一、前言1.1 梯度提升梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的机器学习技术,属于Boosting算法 ...
阅读全文 »

spark基础笔记

发表于 2018-10-23 | 分类于 工程工具 |
1、从Seq中构造DataFrame123456val df = Seq( (1,12345678,"this is a test"), (1,23456789, "another test"), (2,2345678,"2nd test"), (2,1234567, "2nd anothe ...
阅读全文 »

决策树(ID3 & C4.5 & CART)及正则剪枝

发表于 2018-10-16 | 分类于 机器学习 |
1、介绍决策树(Decision Tree)的思想是贪心(最优化分)与分治(子树划分)。构建决策树的目的是:随着划分过程的进行,使得决策树分支结点所包含的样本尽可能属于同一类别,即使得分类更准确。下图给出了一个决策树的简单例子:决策树模型在监督学习中非常常见,可用于分类(二分类、多分类)和回归。虽然 ...
阅读全文 »

通俗理解之条件随机场(CRF)

发表于 2018-10-08 | 分类于 NLP |
1、简介在前面两篇博文中(条件随机场之基本概念与模型和条件随机场之学习和预测问题)介绍了CRF的理论知识,主要是统计学习方法中的一个笔记。其实只是看这两篇理论的文章还是很难理解的,最好的办法就是用一个现实的例子来说明它并使用通俗的方式把算法梳理一遍。通俗介绍CRF的文章不多,无意中看到了如何轻松愉快 ...
阅读全文 »

条件随机场之学习和预测问题

发表于 2018-08-26 | 分类于 NLP |
一、条件随机场的学习问题条件随机场模型实际上是定义在时序数据上的对数线形模型,其学习方法包括极大似然估计和正则化的极大似然估计。具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及拟牛顿法。(其中,主流的CRF软件之CRF++采用了拟牛顿法+L-BFGS优化,所以着重看这种训练方法即可。) 1 ...
阅读全文 »

条件随机场之基本概念与模型

发表于 2018-08-24 | 分类于 NLP |
一、简介条件随机场模型是Lafferty等人在2001年在最大熵模型和隐马尔可夫模型的基础上提出的一种无向图模型,是一种基于标注和切分有序数据的条件概率模型。CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理、生物信息学、机器视觉及网络智能等领域。目前基于CRF的实现有CRF,FlexC ...
阅读全文 »

马尔可夫模型-HMM

发表于 2018-08-22 | 分类于 NLP |
1、简介隐马尔可夫(Hidden Markov model)模型是一类基于概率统计的模型,是一种结构最简单的动态贝叶斯网,是一种重要的有向图模型。自上世纪80年代发展起来,在时序数据建模,例如:语音识别、文字识别、自然语言处理等领域广泛应用。隐马尔可夫模型涉及的变量、参数众多,应用也很广泛。 2、隐 ...
阅读全文 »

词典分词之mmseg算法原理及其实现

发表于 2018-08-16 | 分类于 NLP |
1、简介MMSeg是由台湾学者蔡志浩(Chih-Hao Tsai)于1996年提出的基于字符串匹配(亦称基于词典)的中文分词算法。词典分词应用广、可控、速度快,但也存在无法解决歧义问题,比如,“武汉市长江大桥”是应分词“武汉/市长/江大桥”还是“武汉市/长江/大桥”。基于此,有人提出了正向最大匹配策 ...
阅读全文 »

EM算法

发表于 2018-08-16 | 分类于 机器学习 |
一、EM算法简介EM算法,指的是最大期望算法(Expectation Maximization Algorithm)是一种迭代算法,在统计学中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。最大期望算法经过两个步骤交替进行计算:计算期望(E),利用概率模型参数的现有估计值,计算 ...
阅读全文 »

信息熵及其相关

发表于 2018-08-15 | 分类于 机器学习 |
一、信息熵根据香农(Shannon)给出的信息熵公式,对于任意一个随机变量X,它的信息熵定义如下,单位为比特(bit):$$ H(X) = -\sum_{i=1}^{m}p(x_i)logp(x_i)$$在物理界中熵是描述事物无序性的参数,熵越大则越混乱,类似的在信息论中熵表示随机变量的不确定程度。 ...
阅读全文 »
123
马野

马野

25 日志
5 分类
33 标签
E-Mail
网站链接
  • Arixv热搜版
  • 码农场
  • AI研习社
  • Fudan NLP
  • THUNLP
  • 《AI算法工程师手册》
© 2020 马野
本站总访问量 次 | 有人看过我的博客啦
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.4

Hosted by Coding Pages