了解机器学习吗?人工智能不一样的生活体验

时间:2020-03-16 16:14来源:未知 作者:中博IT教育

01 何谓机器学习 近几年,机器学习可谓是业界最热门的领域之一,AlphaGo以4 : 1的比分击败李世石,人工智能和机器学习一夜火遍世界各地。 机器学习离我们并不遥远,甚至可以说已经

01 何谓机器学习

 

近几年,机器学习可谓是业界最热门的领域之一,AlphaGo以4 : 1的比分击败李世石,人工智能和机器学习一夜火遍世界各地。机器学习离我们并不遥远,甚至可以说已经渗透到我们生活的方方面面。例如:网上购物时,电商网站根据用户偏好为用户推荐商品;Siri手机语音助手可查询天气、播放音乐;打车时,打车软件帮我们预估行程时间、规划行程路线;点外卖时,外卖App将订单分配给附近空闲的骑手等。这些无一不是通过机器学习技术来实现的。

 
通俗来讲,机器学习是计算机针对某一任务,从经验中学习,并且能越做越好的过程。一般情况下,“经验”都是以数据的方式存在的,计算机程序从这些数据中学习。学习的关键是模型算法,它可以学习已有的经验数据,用以预测未知数据。
 
在很多领域,仅仅靠人很难从诸多信息中将有效信息提取出来的。例如,我们想知道一个人是否会去购买某个电影的电影票。想要知道这个答案,最直接、有效的方法就是去问他本人,因为他本人的回答是与结果最接近的,也就是相关性最强的一个特征。
 
假如我们并不认识这个人,或并没有条件直接与他本人沟通,那么还有另外一种思路—问他的朋友,他的朋友可能对他比较了解,知道他喜欢哪种类型的影片。但往往这个条件也不一定能达到,因为对于这样的需求场景,更多的可能是影院想知道他的顾客会不会购买某个电影的电影票。
 
而影院所拥有的顾客信息通常是用户的性别、年龄、以往观影记录、消费记录等基本信息。对于普通人来说,通过这些原始数据预测该顾客未来的行为,很难给出一个比较准确的答案。此时便需要机器学习把无序的数据转换成有用的信息,从而解决相关问题。
 
机器学习横跨了多个学科,包括计算机科学、统计学等,而从事机器学习的人不仅需要扎实的计算机知识和数学知识,还需要对机器学习应用场景下的业务知识非常了解。因此,很多人觉得机器学习门槛很高,还没有开始学习就望而却步了。
 
其实机器学习的入门并没有想象中那么难,当然也不意味着机器学习的技术含量低。机器学习的特点是:入门门槛低,学习曲线陡。很多人入门之后容易陷入一种瓶颈状态,很难有更高的突破,所以学习机器学习一定要有耐心和毅力。
 
学习机器学习所需的基础知识有以下几类:
 
  1. 数学:线性代数(矩阵变换)、高等数学;
  2. 概率分布、回归分析等统计学基础知识;
  3. Python、NumPy、Pandas等数据处理工具;
  4. Hadoop、Spark等分布式计算平台。
 
读者不要被上面所罗列的知识吓到,因为即使你不具备这些知识,也可以学习机器学习,在学习的过程中随用随查即可。当然,如果已经事先具备了这些知识,那你学习起来一定事半功倍。下面介绍机器学习相关的基本概念。
 

机器学习是Machine Learning,英文简称 ML。

 

一句话就能明白什么是机器学习:机器学习是实现人工智能技术的方法。

 

机器学习是一门多领域交叉学科,涉及概率论、统计学、算法理论等多门学科。这里需要强调一下,机器学习可不是一门编程语言哦,它是专门研究计算机怎样模拟或实现人类的学习行为、以获取新的知识或技能,让计算机重新组织已有的知识结构使之不断改善自身的性能。

 

举一个例子看看机器学习是什么。例如这里有上百万张图片,需要分出哪些图片包含小狗、哪些图片没有小狗。如果人类通过眼睛来分,那岂不是要累惨了,可以通过机器来帮忙。机器学习就是构建出一个模型,该模型经过特殊的训练后,可以将图片标记为包含狗或不包含狗。一旦准确度达到足够高,机器就“学会”了分辨狗的样子。这个过程就是机器学习。

 

机器学习主要是提供一个算法、训练出一个模型,该模型实现特殊的功能。

 
02 机器学习常用基本概念
 
假如我们有一批房屋特征数据,其中包括卧室数量、房屋面积等信息,如表1-1所示。
 
其中,每一条记录称为样本,样本的集合称为一个数据集(data set)。类似卧室数量、房屋面积等列(不包括房价列)称为特征(feature)。房价是比较特殊的一列,它是我们需要预测的目标列。在已知的数据集中,目标列称为标签(label),它可以在模型学习过程中进行指导。
 
并非所有的数据集均包含标签,是否包含标签决定了采用何种类型的机器学习方法(后续会对不同类型的机器学习方法进行介绍)。数据集一般可以分为训练集、验证集和测试集,三者是相互独立的。
 
  • 训练集用于训练和确定模型参数;
  • 验证集用于模型选择,帮助选出最好的模型;
  • 测试集用于评估模型,测试模型用于新样本的能力(即泛化能力)。
 
如果机器学习任务的预测目标值是离散值,则称此类任务为分类任务。比如比较常见的垃圾邮件分类系统,类别只有垃圾邮件、非垃圾邮件两类,这是一个分类任务,并且是一个二分类任务(类别只有2种)。
 
若类别有多种,则称这类任务为多分类任务。例如预测电影所属类型,其包括动作片、爱情片、喜剧片等多个类别。如果预测值是连续值,则称为回归任务,如表1-1中的预测房价。
 
另外,还可以对数据进行聚类,即找到数据的内在结构,发现其中隐藏的规律。例如我们以前看过的电影,即使没有人告诉我们每部电影的类型,我们也可以自己归纳出哪些影片属于喜剧片、哪些属于动作片。
 
03 机器学习类型
 
按照学习方式的不同,可以将机器学习划分为几种类型:监督学习(supervised learning)、无监督学习(unsupervised learing)、半监督学习(semi-supervised learning)、强化学习(rein-forcement learning)。
 
再来跟小课了解几个火爆的“人工智能”名词儿,这样在撸串炸鸡啤酒时,可以跟小伙伴吹嘘吹嘘,提高提高自己的人格档次。

 

 

“机器学习”和“深度学习”,这几个名词,经常会和人工智能一同出现在不同场合,他们都是什么意思呢?

 
 
 
 
 
 
人工

 

先来看看人工智能。在1956年达特矛斯会议上,约翰•麦卡锡提出了“人工智能”这个概念。人工智能的含义是可以执行人类智能特征任务的机器,也就是Artificial Intelligence,英文缩写为AI。

 

这个概念其实涵盖是比较广泛,总的来说就是使用“机器”来理解语言、识别物体与声音、学习和解决问题等内容。人工智能这个概念是大范围内的一个定义,具有概括性质的一个概念。

(责任编辑:中博IT教育)

苏公网安备 32030302000649号