翻译翻译,什么叫机器学习贝叶斯算法

编辑导读:认识世界,就是一个从已知到未知的函数。机器学习,就是预测这个函数,并且使预测结果尽量准确。本文作者围绕机器学习展开讨论,与你分享。

问:谈谈你对机器学习的理解。 答:机器学习就是用已知去预测未知。

认识世界,就是一个从已知到未知的函数。收集一大堆数据,然后用它们去预测一个值,就是回归问题。例如数码回收,根据你的机型、机况和行情,给出一个价格走势;从一大堆数据中,找到属于某一类的那些,就是分类问题。例如我们经常使用的验证码,“选出所有带桥的图片”。

机器学习,就是预测这个函数,并且使预测结果尽量准确。当然,这个过程是由算法工程师实现的,策略产品经理需要思考的是怎样用算法的逻辑,去解决业务问题。本文放弃了复杂的定义和公式,尝试用口语化的语言介绍常用算法的逻辑,降低新手产品经理(非技术)的学习成本,并且覆盖尽可能多的工作场景。

一、像树一样决策

决策树(Decision Tree)是一种以树形数据结构来展示决策规则和分类结果的模型,比较接近人类的决策过程。决策树发挥作用,首先要用到看似杂乱无序的已知实例,有2个值可以来形容这些实例。

信息熵:对随机时间不确定的度量,即到底有多杂乱无章。信息增益:事件A的的发生为事件B增加了一些确定性,增量的多少即信息增益。

接下来,你要不断寻找最能将这堆杂乱无章的数据区分开来的特征——即使之区分于其他数据的特质——使用这一特征对数据进行划分。每次选择区分度最高的一个,不断迭代,直到所有特征都被用掉。用最经典的买瓜问题来示例:

这时你就可以通过决策树来判断,下一个西瓜到底该不该买。在这个过程中,有时候需要产品帮助判断什么特征才是最有价值的。你也可以不断发现新的有价值特质,或删除一些多余的特征,将这棵”树“修剪地更加精致。

二、以类聚物,以群分人

所谓”近朱者赤近墨者黑“,虽然我们不了解一个人,但我们了解了他身边的人后,就根据已知信息推测他的性格特征。这也是K近邻模型的原理。在一个空间中,距离样本A最近的K个样本B属于一个类别,那么A也属于这个类别,并且具备这个类别的特征。这里”空间“和”距离“的定义较为复杂,不做展开。

如何选择合适的K值?需要持续训练。如果K们不能很好地归成一类咋办?那我A应该归属于谁呢?有两种判定方式,一种是少数服从多数,哪类最多我属于谁;一种是加权投票,可以根据远近程度加权,越近权重越大。

对于产品而言,在进行用户分层类的项目时,可能会依赖这类算法能力。举个例子,当前我能提供图文、短视频和中长视频三种形式的服务,每种服务下都积累了大量的用户数据。这时由于运营的出色表现,产品涌入了大量新用户,我需要尽快知道他们更适合哪种形式的服务,以提高留存、活跃和转化。

三、完美一刀切

承接上文,面对大量新用户,我想要知道他们哪些对我价值最高,哪些价值稍低,从而采取不同的运营策略。支持向量机模型会是一个好的选择。

假如我有N个特征来形容这批用户,那么构建一个N维的空间,每个用户都能在其中找到自己的坐标。这时我找到一个N-1维的平面,它正好将所有用户分割成2个不同的类别,并且离正负样本的距离最远。

这就是支持向量机模型的基本逻辑,是解决线性不可分问题、非线性问题的利器。

以上三种模型都是根据已知特征,给出一个确定的分类结果(未必准确),我们称之为判别模型。与之相对的是生成模型,它会给出一个最优的猜测结果,同时给出猜测的概率估计值。在一定条件下,它能更好地反映数据分布的全貌。

四、朴素贝叶斯模型

啥叫贝叶斯?贝叶斯就是在已知某条件的前提下,推算某事件发生的概率。它强调我们在预测一个事物前,要根据已有信息推断一个先验概率。用举个例子:如何肿瘤化验结果推断患者是否真正得癌?在计算这个概率之前,我们首先要知道先验概率,即癌症本身的发病率为多少,以及化验检测的准确率是多少。

如上图所示,当你的化验结果是有病时,你实际上只有9%的概率真正患病;而如果你真正患病,也有十万分之一的概率没有被检测出来。

这其实告诉我们,在根据数据进行决策时,要考虑前提条件。例如我们在产品内部新上线了一个“长视频”板块,数据分析发现这一板块下的用户以35-45岁的用户为主,所以我们判断要根据这一年龄阶段的用户去优化UI设计和内容投放。

但考虑到先验概率的问题,我们首先要知道该板块用户的转化概率,即从35岁-45岁的网民转化到我“长视频”板块活跃用户的概率。如果这一概率很高,那么我们可能只是在这一年龄段用户聚集的渠道做了比较多的投放,导致现阶段35-45岁用户较多。我们针对其他年龄用户聚集的渠道,也来一波拉新策略,可能同样获得成功。那么现阶段去调整功能设计和内容策略,就是不合适的。

五、总结

对很多非技术产品经理来说,充斥着数学公式和专业术语的技术语言是很难理解,或理解成本较高的。但实际上,作为一个新手产品经理,还没有深入到具体的业务之前,只需要了解每种技术的实现逻辑即可。从策略的视角去审视技术,而不是让技术限制了你的想象力。树立强烈的目标导向,与技术团队建立良好的沟通关系,可能是更高效的手段。

新手产品经理高效沟通体系的搭建

本文由 @学产品的小学生 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.机器学习实战学习笔记AiLearning之机器学习基础总结 Logsitic回归 sigmoid阶跃函数: Tanh函数:sigmoid函数变形,且是0均值的:; 寻找最优参数的相关理论 梯度算jvzquC41yy}/lrfpuj{/exr1r1idf==255:9hl
1.什么是机器学习,机器学习概述(新手必看)什么是机器学习,机器学习概述(新手必看) 机器学习(machine learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,简单理解,就是通过训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测,如下图所示。jvzquC41e0hjcwhjgpm/pny1xkkx1pgusc;f0qyon
2.机器学习的介绍数据分析机器学习3. 机器学习的分类 根据学习方式的不同,机器学习可以分为以下几类: 监督学习(Supervised Learning):监督学习是指模型在训练过程中,能够获得带有标签的训练数据。标签是指训练数据中每个样本对应的正确输出。通过学习带有标签的训练数据,模型可以学会如何根据输入数据预测输出结果。常见的监督学习任务包括分类和回归。 jvzquC41dnuh0lxfp0tfv8sppaeopw4ctvodnn4fgvgjn|4374684@:6
3.机器学习(深度学习)机器学习在预测和推荐系统中也有广泛的应用,如销售预测、个性化推荐等。协同过滤和基于内容的推荐是常用的技术。 制造业和物联网 物联网(IoT)在制造业中的应用越来越广泛,机器学习可用于处理和分析传感器数据,实现设备预测性维护和质量控制。 能源管理与环境保护 jvzquC41dnuh0lxfp0tfv87523e8:>=343;0c{ykenk0fnyckny03=<::2967
4.机器学习是什么?机器学习分为几类?机器学习是什么?机器学习分为几类? 随着互联网的高速发展,被收集并应用于分析的数据量呈现出爆发式增长,面对如此量级的数据,以及常见的实时利用该数据的需求,仅依靠人工处理难免力不从心,这就催生了所谓的大数据和机器学习系统。 机器学习是一门多领域的交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学 jvzquC41yy}/k}hcuv4dp8sgyu532;5264903=6252;46B<0ujznn
5.人工神经网络进化简史1949年,心理学家唐纳德·赫布在《The Organization of Behavior》论文中描述了神经元学习法则。 人工神经网络更进一步被美国神经学家 Frank Rosenblatt 所发展。他提出了可以模拟人类感知能力的机器,并称之为“感知机”(MLP)。1957年,在 Cornell 航空实验室中,他成功在IBM 704机上完成了感知机的仿真。两年后,他又jvzquC41yy}/lrfpuj{/exr1r165f96gh8682@
6.机器学习入门模型优化与部署:根据评估结果对模型进行优化,如调整模型参数、选择更合适的特征等。优化后的模型可以部署到实际应用中,为用户提供服务。 1.2 机器学习的前景 机器学习作为人工智能的核心技术,在近年来得到了迅速发展,为人类社会各个方面带来了巨大的影响和潜力。,机器学习将在很多领域发挥重要作用,为人类创造更美好的生活。 智能化 jvzquC41dnuh0lxfp0tfv8vsa6;:9>6651gsvrhng1jfvjnnu175;>:333?
7.⭐️机器学习概念步骤分类和实践此外,机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等多种类型,这些类型各有其特点和适用场景。机器学习是人工智能 的一个关键分支,它使计算机系统能够在没有明确编程的情况下学习和进步。 二、机器学习步骤 机器学习流程通常包括以下步骤: jvzquC41dnuh0lxfp0tfv8rqncthoxqcpi5bt}neng5eg}fknu525@732;:2
8.什么是Azure机器学习?Azure 机器学习是一种用于加速和管理机器学习项目生命周期的云服务:训练和部署模型,以及管理 MLOps。jvzquC41fqit0vnetqyph}3eqo5{j6hp1c€vtn4ocenjpn2ngcxokwl1uv{ekx4yjcz.k|2on/yuwmnq
9.我是如何准备机器学习竞赛,超详细的综合指南本文旨在为初学者和专家提供一个模板,让他们能够开始学习机器学习竞赛。 从理论上学习机器学习,理解所有这些令人惊叹的算法是很意思的,但最重要的部分是实际应用这些概念。 实践活动可以加强你对概念的理解,并会向你展示仅通过理论无法达到的重大发现。 增强技能的最佳途径是参加现实世界的比赛,在那里你可以找到很多志同jvzquC41yy}/hu~ck0ipo8ftvkimg8ftv:kg;:=h;d>54=j949613@>:8
10.西安思考:“2018国际人工智能院长论坛”专家思想分享个领域。如何用数据科学和机器学习帮助进化算法做复杂优化,关键是如何把数据和其它经验知识运用到进化优化的大环境中去。”通过人脸识别、疫苗选择、生物调控网和工业生产等实例,金耀初教授介绍了将进化计算和机器学习结合的优势:“从优化的角度出发,机器学习基本可以看成是一个优化问题,进化计算可以解决机器学习方法中的不足 jvzquC41krov0nfkct/gmz0ep5jpot132?81:6430nuo
11.机器学习面试笔试知识点1.一棵决策树的生成过程分为以下3个部分 特征选择:指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。 决策树生成:根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树生长。 jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1:886:;:
12.西北工业大学类脑计算前沿学科论坛会议通知本次论坛瞄准脑科学与类脑计算学科国际前沿,围绕我国脑科学与类脑计算战略发展需求,从脑科学与类脑计算领域关键核心技术(脑科学最新进展、类脑模型和算法、脑机交互、仿生计算、深度学习、智能计算、类脑计算芯片和软件等),全方位讨论类脑计算的研究背景、面临的挑战和可能的发展技术路线,追踪学科发展新动态。热忱欢迎jvzquC41|fny{7syrw4ff~3ep1oohx432:905@<60jzn
13.北京大学数学学院2020年秋学期我讲了一次。这门课北大数学学院的本科生和博士生反响应该还是比较好的,因为它是概率、组合、机器学习、理论计算机和统计有关的一个基础课,又比较现代,可以马上用于研究。我下学期(2022年春学期)将开设《理论机器学习》,这个是为博士生首次开设的,我现在正在找教学资料。jvzquC41yy}/ojyj0rqv0niw0et0z‚}y13976;90jvs
14.什么是模型生成器,它的工作原理是怎样的?多类分类数据分类 图像分类图像分类 文本分类文本分类 回归值预测 建议建议 预测预测 例如,将情绪归类为正面或负面的方案属于二元分类任务。 若要详细了解 ML.NET 支持的不同 ML 任务,请参阅ML.NET 中的机器学习任务。 哪个机器学习方案最适合我? 在模型生成器中,你需要选择一个方案。 方案类型取决于尝试进行的jvzquC41fqit0vnetqyph}3eqo5{j6hp1fuupny1ociikwj/nggsprsi1c{uqvq/qxksxrjy
15.字节跳动算法岗武功秘籍(上)(1)实习岗位类 【图像与多媒体算法实习】、【Data搜索部(数据挖掘)实习】、【三维视觉实习】、【自然语言处理实习】、【数据挖掘/搜索/推荐实习】、【效率工程算法实习】、【广告算法实习】、【AI Lab机器学习实习生】、【商业变现部门推荐算法】、【编解码算法工程师实习】 (2)全职岗位类 【AI Lab计算机视觉与深jvzquC41yy}/hu~ck0ipo8ftvkimg8>35