Word2Vector原始版本过程深度解析

Posted on 2018-05-29 | In Machine Learning | | Heat: ℃

Words count in article: 47 words | Reading time ≈ 1 min

此文主要讲述未用哈夫曼二叉树优化的w2v计算过程，可以对其神经网络对自然语言处理的过程有个基本的认识。

NLP之中文分词实现原理

Posted on 2018-05-28 | In Machine Learning | | Heat: ℃

Words count in article: 3,205 words | Reading time ≈ 11 min

目前中文分词三大主流分词方法：基于词典的方法、基于规则的方法和基于统计的方法基于词典的方法1定义：按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。按照扫描方向的不同：正向匹配和逆向匹配按照长度的不同：最大匹配和最小匹配正向最大匹配思 ...

Spark PipeLine

Posted on 2018-04-06 | In Coding | | Heat: ℃

Words count in article: 181 words | Reading time ≈ 1 min

以前spark-streaming用的比较多，ML库用的比较少，对pipeline之类的概念理解的不够深入。趁清明假期总结一下，温故知新。 spark提供的标准的机器学习算法能够将不同的算法和组件组合在一起，形成一个管道或者工作流。可以参考代码来看：可以看到pipeline可以顾名思义地理解为管道 ...

word2vec学习问题简记

Posted on 2018-03-21 | In Machine Learning | | Heat: ℃

Words count in article: 1,499 words | Reading time ≈ 5 min

为了表示对前辈的尊敬，这篇文章建议所有做word2vector的人都应该拜读关于模型的解释，很简单： 12词 => 上下文 Skip-gram上下文 => 词 CBOW Continuous Bag-of-words Model 损失函数是L =Σ𝑙𝑜𝑔𝑝(𝑤|𝐶� ...

阅读论文技巧

Posted on 2018-03-21 | In Muse | | Heat: ℃

Words count in article: 929 words | Reading time ≈ 3 min

本文是How to read a paper的简洁笔记三步走战略不要从头到尾的啃一篇论文，要有策略：粗读获取主旨通读掌握内容精读深度理解本文的最重要的观念在于，利用三段法阅读学术论文，每个阶段阅读都有其特殊的目的，且每一个目的都是以上一个阶段的结果为基础。第一阶段第一阶段以快速扫描整 ...