NLP之中文分词实现原理
Posted on
|
In
Machine Learning
|
|
Heat:
℃
Words count in article:
3,205 words
|
Reading time ≈
11 min
目前中文分词三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法
基于词典的方法1定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
按照扫描方向的不同:正向匹配和逆向匹配
按照长度的不同:最大匹配和最小匹配
正向最大匹配思
...
Spark PipeLine
以前spark-streaming用的比较多,ML库用的比较少,对pipeline之类的概念理解的不够深入。趁清明假期总结一下,温故知新。
spark提供的标准的机器学习算法能够将不同的算法和组件组合在一起,形成一个管道或者工作流。可以参考代码来看:
可以看到pipeline可以顾名思义地理解为管道
...
word2vec学习问题简记
Posted on
|
In
Machine Learning
|
|
Heat:
℃
Words count in article:
1,499 words
|
Reading time ≈
5 min
为了表示对前辈的尊敬, 这篇文章建议所有做word2vector的人都应该拜读
关于模型的解释,很简单:
12词 => 上下文 Skip-gram上下文 => 词 CBOW Continuous Bag-of-words Model
损失函数是L =Σ𝑙𝑜𝑔𝑝(𝑤|𝐶�
...
阅读论文技巧
本文是How to read a paper的简洁笔记
三步走战略不要从头到尾的啃一篇论文,要有策略:
粗读获取主旨
通读掌握内容
精读深度理解
本文的最重要的观念在于,利用三段法阅读学术论文,每个阶段阅读都有其特殊的目的,且每一个目的都是以上一个阶段的结果为基础。
第一阶段第一阶段以快速扫描整
...