Spark与Hadoop哲学概念对比 Posted on 2018-09-26 | In Coding | | Heat: ℃ Words count in article: 1,671 words | Reading time ≈ 6 min 在有迭代计算的领域,Spark 的计算速度远远超过 MapReduce,并且迭代次数越多,Spark 的优势越明显。这是因为 Spark 很好地利用了目前服务器内存越来越大这一优点,通过减少磁盘 I/O 来达到性能提升。它们将中间处理数据全部放到了内存中,仅在必要时才批量存入硬盘中。 具体来讲,学习 ... Read more »
Spark基本概念哲学剖析 Posted on 2018-09-26 | In Coding | | Heat: ℃ Words count in article: 2,135 words | Reading time ≈ 8 min Spark框架基本概念所谓的Spark框架基本概念都是围绕着RDD衍生出来的: DAG: 用有向无环图来表示RDD之间的血缘关系 Partition: RDD的分区数,Spark根据partition的数量确定task的数量 窄依赖: 子RDD依赖父RDD的固定partition 宽依赖: 子RD ... Read more »
真正意义上的货币战争 Posted on 2018-07-14 | In Muse | | Heat: ℃ Words count in article: 8,687 words | Reading time ≈ 29 min 本篇文章写于16年中旬,彼时股市正处于暴跌之中,而从美元指数已经进入到了增强周期。而今人民币在没有编制基础的官媒中阴跌了两年,截止到本文截止时已到了6.73,破7的言论甚嚣尘上。以铜为鉴,可以正衣冠;以史为鉴,可以知兴替。在此危急存亡之际,再次从技术的角度梳理一下当年索罗斯做空泰铢步骤,以为后事之师 ... Read more »
热度TopN排名算法设计沉思录 Posted on 2018-07-08 | In Machine Learning | | Heat: ℃ Words count in article: 4,829 words | Reading time ≈ 17 min 本文主要介绍几种常见的基于用户打分的帖子排序算法模型 单因子喜好模型 诸如“过去60分钟内被收藏的次数”进行排名。每过60分钟,就统计一次。 这个算法的优点是比较简单、容易部署、内容更新相当快;缺点是,一方面,排名变化不够平滑,前一个小时还排名靠前的内容,往往第二个小时就一落千丈,另一方面,缺乏自动 ... Read more »
特征选择与稀疏学习 Posted on 2018-06-25 | In Machine Learning | | Heat: ℃ Words count in article: 1,645 words | Reading time ≈ 6 min 特征选择特征选择是我们进行机器学习训练前必须要考虑的一个步骤,周志华说特征选择是避免维度灾难和去重冗余特征,但是这两点都是为避免学习复杂度。但是也不能盲目去掉冗余特征,要根据结果考虑。如果计算体积的话,长宽底面积高,我们可以去掉长宽,保留底面积。 特征选择的过程本质上讲,离不开两个步骤: 子集搜索 ... Read more »