期权路，上证50ETF期权

2020年08月18日

基于用户投票的排名算法（五）：威尔逊区间

迄今为止，这个系列都在讨论，如何给出"某个时段"的排名，比如"过去24小时最热门的文章"。但是，很多场合需要的是"所有时段"的排名，比如"最受用户好评的产品"。这时，时间因素就不需要考虑了。这个系列的最后两篇，就研究不考虑时间因

2020年08月18日

（这个系列实在拖得太久，今天是最后一篇。）上一篇介绍了"威尔逊区间"，它解决了投票人数过少、导致结果不可信的问题。举例来说，如果只有2个人投票，"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性，

2020年08月18日

有人在Stack Exchange问了一个问题：　　"我一直觉得虚数（imaginary number）很难懂。　　中学老师说，虚数就是-1的平方根。　　　　可是，什么数的平方等于-1呢？计算器直接显示出错！　　直到今天，我也没有搞懂。谁能解释，虚数

2020年08月18日

（这个系列的第一部分介绍了贝叶斯定理，第二部分介绍了如何过滤垃圾邮件，今天是第三部分。）使用谷歌的时候，如果你拼错一个单词，它会提醒你正确的拼法。比如，你不小心输入了 seperate。谷歌告诉你，这个词是不存在的，正确的拼法

2020年08月18日

通常，图像处理软件会提供"模糊"（blur）滤镜，使图片产生模糊的效果。 "模糊"的算法有很多种，其中有一种叫做"高斯模糊"（Gaussian Blur）。它将正态分布（又名"高斯分布"）用于图像处理。本文介绍"高斯模糊"的算法，你会看到这是一个

2020年08月18日

去年12月，美国康涅狄格州发生校园枪击案，造成28人死亡。资料显示，1982年至2012年，美国共发生62起（大规模）枪击案。其中，2012年发生了7起，是次数最多的一年。去年有这么多枪击案，这是巧合，还是表明美国治安恶化了？前几天，我

2020年08月18日

这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息

2020年08月18日

有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法，但肯定是最简便易行的方法。今天，依然继续这个主题。讨论如何通

2020年08月18日

二年前，我写了《相似图片搜索的原理》，介绍了一种最简单的实现方法。昨天，我在isnowfy的网站看到，还有其他两种方法也很简单，这里做一些笔记。一、颜色分布法每张图片都可以生成颜色分布的直方图（color histogram）。如果两张图

2020年08月18日

上一次，我用TF-IDF算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用