期权知识 第609页

  • 泊松分布与美国枪击案

    泊松分布与美国枪击案

    去年12月,美国康涅狄格州发生校园枪击案,造成28人死亡。 资料显示,1982年至2012年,美国共发生62起(大规模)枪击案。其中,2012年发生了7起,是次数最多的一年。 去年有这么多枪击案,这是巧合,还是表明美国治安恶化了? 前几天,我看到一篇很有趣的文章,使用"泊松分布"(Poisson distribution),判断同一年发生7起枪击案是否巧合。 让我们先通过一个例子,了解什么是"泊松分布"。 已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?...

    期权知识 2020-08-18 482 0
  • TF-IDF与余弦相似性的应用(一):自动提取关键词

    TF-IDF与余弦相似性的应用(一):自动提取关键词

    这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。 让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖...

    期权知识 2020-08-18 446 0
  • TF-IDF与余弦相似性的应用(三):自动摘要

    TF-IDF与余弦相似性的应用(三):自动摘要

    有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。 如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间。由人完成的摘要叫"人工摘要",由机器完成的就叫"自动摘要"。许多网站都需要它,比如论文网站、新闻网站、搜索引擎等等。2007年,...

    期权知识 2020-08-18 435 0
  • 相似图片搜索的原理(二)

    相似图片搜索的原理(二)

    二年前,我写了《相似图片搜索的原理》,介绍了一种最简单的实现方法。 昨天,我在isnowfy的网站看到,还有其他两种方法也很简单,这里做一些笔记。 一、颜色分布法 每张图片都可以生成颜色分布的直方图(color histogram)。如果两张图片的直方图很接近,就可以认为它们很相似。 任何一种颜色都是由红绿蓝三原色(RGB)构成的,所以上图共有4张直方图(三原色直方图 + 最后合成的直方图)。 如果每种原色都可以取256个值,那么整个颜色空间共有1600万种颜色(256的三次方)。针对这1600...

    期权知识 2020-08-18 493 0
  • TF-IDF与余弦相似性的应用(二):找出相似文章

    TF-IDF与余弦相似性的应用(二):找出相似文章

    上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。 为了简单起见,我们先从句子着手。   句子A:我喜欢看电视,不喜欢看电影。   句子B:我不喜欢看电视,也不喜欢看电影。 请问怎样才能计算上面两句话的相似程度...

    期权知识 2020-08-18 478 0
  • 朴素贝叶斯分类器的应用

    朴素贝叶斯分类器的应用

    生活中很多场合需要用到分类,比如新闻分类、病人分类等等。 本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。 一、病人分类的例子 让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。 某个医院早上收了六个门诊病人,如下表。   症状  职业   疾病   打喷嚏 护士   感冒   打喷嚏 农夫   过敏   头痛  建筑工人 脑震荡   头痛  建筑工人 感冒   打喷嚏 教师   感冒   头痛  教师   脑震荡...

    期权知识 2020-08-18 474 0
  • 泊松分布和指数分布:10分钟教程

    泊松分布和指数分布:10分钟教程

    大学时,我一直觉得统计学很难,还差点挂科。 工作以后才发现,难的不是统计学,而是我们的教材写得不好。比起高等数学,统计概念其实容易理解多了。 我举一个例子,什么是泊松分布和指数分布?恐怕大多数人都说不清楚。 我可以在10分钟内,让你毫不费力地理解这两个概念。 一、泊松分布 日常生活中,大量事件是有固定频率的。 某医院平均每小时出生3个婴儿 某公司平均每10分钟接到1个电话 某超市平均每天销售4包xx牌奶粉 某网站平均每分钟有2次访问 它们的特点就是,我们可以预估这些事件的...

    期权知识 2020-08-18 422 0
  • 蒙特卡罗方法入门

    蒙特卡罗方法入门

    本文通过五个例子,介绍蒙特卡罗方法(Monte Carlo Method)。 一、概述 蒙特卡罗方法是一种计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。 它非常强大和灵活,又相当简单易懂,很容易实现。对于许多问题来说,它往往是最简单的计算方法,有时甚至是唯一可行的方法。 它诞生于上个世纪40年代美国的"曼哈顿计划",名字来源于赌城蒙特卡罗,象征概率。 二、π的计算 第一个例子是,如何用蒙特卡罗方法计算圆周率π。 正方形内部有一个相切的圆,它们的面积之比是π/4。...

    期权知识 2020-08-18 444 0
  • 理解矩阵乘法

    理解矩阵乘法

    大多数人在高中,或者大学低年级,都上过一门课《线性代数》。这门课其实是教矩阵。 刚学的时候,还蛮简单的,矩阵加法就是相同位置的数字加一下。 矩阵减法也类似。 矩阵乘以一个常数,就是所有位置都乘以这个数。 但是,等到矩阵乘以矩阵的时候,一切就不一样了。 这个结果是怎么算出来的? 教科书告诉你,计算规则是,第一个矩阵第一行的每个数字(2和1),各自乘以第二个矩阵第一列对应位置的数字(1和1),然后将乘积相加( 2 x 1 + 1 x 1),得到结果矩阵左上角的那个值3。 也就是说,结...

    期权知识 2020-08-18 516 0
  • 如何识别图像边缘?

    如何识别图像边缘?

    图像识别(image recognition)是现在的热门技术。 文字识别、车牌识别、人脸识别都是它的应用。但是,这些都算初级应用,现在的技术已经发展到了这样一种地步:计算机可以识别出,这是一张狗的照片,那是一张猫的照片。 这是怎么做到的? 让我们从人眼说起,学者发现,人的视觉细胞对物体的边缘特别敏感。也就是说,我们先看到物体的轮廓,然后才判断这到底是什么东西。 计算机科学家受到启发,第一步也是先识别图像的边缘。 加州大学的学生 Adit Deshpande 写了一篇文章《A Beginne...

    期权知识 2020-08-18 534 0