无所住而生其心


  • Home

  • About

  • Tags

  • Categories

  • Archives

  • Search

Word2Vector原始版本过程深度解析

Posted on 2018-05-29 | In Machine Learning | | Heat: ℃
Words count in article: 47 words | Reading time ≈ 1 min
此文主要讲述未用哈夫曼二叉树优化的w2v计算过程,可以对其神经网络对自然语言处理的过程有个基本的认识。
Read more »

NLP之中文分词实现原理

Posted on 2018-05-28 | In Machine Learning | | Heat: ℃
Words count in article: 3,205 words | Reading time ≈ 11 min
目前中文分词三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法 基于词典的方法1定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 按照扫描方向的不同:正向匹配和逆向匹配 按照长度的不同:最大匹配和最小匹配 正向最大匹配思 ...
Read more »

Spark PipeLine

Posted on 2018-04-06 | In Coding | | Heat: ℃
Words count in article: 181 words | Reading time ≈ 1 min
以前spark-streaming用的比较多,ML库用的比较少,对pipeline之类的概念理解的不够深入。趁清明假期总结一下,温故知新。 spark提供的标准的机器学习算法能够将不同的算法和组件组合在一起,形成一个管道或者工作流。可以参考代码来看: 可以看到pipeline可以顾名思义地理解为管道 ...
Read more »

word2vec学习问题简记

Posted on 2018-03-21 | In Machine Learning | | Heat: ℃
Words count in article: 1,499 words | Reading time ≈ 5 min
为了表示对前辈的尊敬, 这篇文章建议所有做word2vector的人都应该拜读 关于模型的解释,很简单: 12词 => 上下文 Skip-gram上下文 => 词 CBOW Continuous Bag-of-words Model 损失函数是L =Σ𝑙𝑜𝑔𝑝(𝑤|𝐶� ...
Read more »

阅读论文技巧

Posted on 2018-03-21 | In Muse | | Heat: ℃
Words count in article: 929 words | Reading time ≈ 3 min
本文是How to read a paper的简洁笔记 三步走战略不要从头到尾的啃一篇论文,要有策略: 粗读获取主旨 通读掌握内容 精读深度理解 本文的最重要的观念在于,利用三段法阅读学术论文,每个阶段阅读都有其特殊的目的,且每一个目的都是以上一个阶段的结果为基础。 第一阶段第一阶段以快速扫描整 ...
Read more »
1234…12
余洋

余洋

Done is better than perfect

59 posts
5 categories
15 tags
RSS
GitHub E-Mail 知乎
© 2018 余洋 | Site words total count: 139.3k
本站访客数: