一.人工智能学科的认识
1.人工智能简介
摘自百度人工智能(Aritificial Intelligence, AI)是计算机科学的一个分支,它企图了解智能的实质,并生产出一种以人类智能相似的方式做出反应的智能机器。人工智能的目的是模拟人的意识、思维的信息过程。就目前来说,该领域的主要研究方向包括:机器人、语言识别、图像识别、自然语言处理和专家系统等,用来替代人类实现识别、认知、分类和决策等多种功能。
MIT教授认为人工智能是针对思想,感知,行动的支持模型建立的表示系统。在我看来,对人工智能的学习,更是对人思维模型的认识与探索。
2.AI简史
埃达 洛夫莱斯是世界第一位编程师,她说:“分析引擎不呢个自命不凡,认为无论什么问题都能解决。”这个观念流传至今,仍在AI领域发挥着不可撼动的地位。
人工智能的诞生注定是不凡的,在20世纪40年代和50年代,来自不同领域(数学,心理学,工程学,经济学和政治学)的一批科学家开始探讨制造人工大脑的可能性。1956年,人工智能被确立为一门学科。综合复杂知识领域的交错,让人工智能的发展也举步维艰。、
是从宏观的角度来讲,人工智能的历史按照所使用的方法,可以分为两个阶段,分水岭大概在1986年神经网络的回归——
在前半段历史中,我们主要使用的方法和思路是基于规则的方法,也就是我们试图找到人类认知事物的方法,模仿人类智能和思维方法,找到一套方法,模拟出人类思维的过程,解决人工智能的问题。
后半段的历史,也就是我们现在所处的这个时期,我们主要采取的方法是基于统计的方法,也就是我们现在发现,有的时候我们不需要把人类的思维过程模拟出一套规则来教给计算机,我们可以在一个大的数量集里面来训练计算机,让它自己找到规律从而完成人工智能遇到的问题。、
以下则是人工智能的发展历程:
一是起步发展期:1956年—20世纪60年代初。人工智能概念提出后,相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序等,掀起人工智能发展的第一个高潮。
二是反思发展期:20世纪60年代—70年代初。人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空(例如,无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等),使人工智能的发展走入低谷。
三是应用发展期:20世纪70年代初—80年代中。20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入应用发展的新高潮。
四是低迷发展期:20世纪80年代中—90年代中。随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。
五是稳步发展期:20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。
六是蓬勃发展期:2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破,迎来爆发式增长的新高潮。
人工智能专业的特色
AI领域的分支
人工智能研究的领域主要有五层,
最底层是基础设施建设,包含数据和计算能力两部分,数据越大,人工智能的能力越强。
往上一层为算法,如卷积神经网络、LSTM 序列学习、Q-Learning、深度学习等算法,都是机器学习的算法。
第三层为重要的技术方向和问题,如计算机视觉,语音工程,自然语言处理等。还有另外的一些类似决策系统,像 reinforcement learning(编辑注:增强学习),或像一些大数据分析的统计系统,这些都能在机器学习算法上产生。
第四层为具体的技术,如图像识别、语音识别、机器翻译等等。
最顶端为行业的解决方案,如人工智能在金融、医疗、互联网、交通和游戏等上的应用,这是我们所关心它能带来的价值。
而就目前来讲,智能接口、数据挖掘、主体及多主体系统是人工智能研究的三个热点。
(一)智能接口技术是研究如何使人们能够方便自然地与计算机交流。为了实现这一目标,要求计算机能够看懂文字、听懂语言、说话表达,甚至能够进行不同语言之间的翻译,而这些功能的实现又依赖于知识表示方法的研究。因此,智能接口技术的研究既有巨大的应用价值,又有基础的理论意义。目前,智能接口技术已经取得了显著成果,文字识别、语音识别、语音合成、图像识别、机器翻译及自然语言理解等技术已经开始实用化。
(二)数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但是又潜在有用的信息和知识的过程。数据挖掘和知识发现的研究目前已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。
(三)主体系统是具有信念、愿望、意图、能力、选择、承诺等心智状态的实体,比对象的粒度更大,智能性更高,而且具有一定的自主性。主体试图自治、地完成任务,而且可以和环境交互,与其他主体通信,通过规划达到目标。多主体系统主要研究在逻辑上或物理上分离的多个主体之间进行协调智能行为,最终实现问题求解。
机器学习同深度学习之间还是有所区别的,机器学习是指计算机的算法能够像人一样,从数据中找到信息,从而学习一些规律。虽然深度学习是机器学习的一种,但深度学习是利用深度的神经网络,将模型处理得更为复杂,从而使模型对数据的理解更加深入。
机器学习有三类,
监督学习:通过已有的一部分输入数据与输出数据之间的相应关系。生成一个函数,将输入映射到合适的输出,比如分类。是一个机器学习中的方法。能够由训练资料中学到或建立一个模式( learning model)。并依此模式猜測新的实例。
训练资料是由输入物件(一般是向量)和预期输出所组成。函数的输出能够是一个连续的值(称为回归分析)。或是预測一个分类标签(称作分类)。
2、一个监督式学习者的任务在观察完一些训练范例(输入和预期输出)后,去预測这个函数对不论什么可能出现的输入的值的输出。要达到此目的。学习者必须以"合理"(见归纳偏向)的方式从现有的资料中一般化到非观察到的情况。
在人类和动物感知中。则通常被称为概念学习(concept learning)。
非监督学习:直接对输入数据集进行建模,比如聚类。
是人工智能网络的一种算法(algorithm)。其目的是去对原始资料进行分类,以便了解资料内部结构。有别于监督式学习网络,无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。其特点是仅对此种网络提供输入范例。而它会自己主动从这些范例中找出其潜在类别规则。当学习完成并经測试后,也能够将之应用到新的案例上。
半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。半监督学习问题从样本的角度而言是利用少量标注样本和大量未标注样本进行机器学习。从概率学习角度可理解为研究怎样利用训练样本的输入边缘概率 P( x )和条件输出概率P ( y | x )的联系设计具有良好性能的分类器。这样的联系的存在是建立在某些如果的基础上的。即聚类如果(数据整体分布)(cluster assumption)和流形如果(局部特征)(maniford assumption)。
人工智能最热门的技术趋势
1.神经网络的架构正变得越来越复杂。感知和翻译等大多数神经网络的架构正变得越来越复杂,远非此前简单的前馈神经网络或卷积神经网络(CNN)所能比。特别需要注意的是,神经网络正与不同的技术(如LSTMs、自定义目标函数等)相混合。
神经网络是多数深度学习项目的根基。深度学习基于人脑结构,一层层互相连接的人工模拟神经元模仿大脑的行为,处理视觉和语言等复杂问题。这些人工神经网络可以收集信息,也可以对其做出反应。它们能对事物的外形和声音做出解释,还可以自行学习与工作。
2.长短期记忆网络(LSTMs)。当你阅读本文时,你是在理解前面词语的基础上来理解每个词语的。你的思想具有连续性,你不会丢弃已知信息而从头开始思考。传统神经网络的一大缺陷便无法做到这一点,而递归神经网络能够解决这一问题。
RNN(循环神经网络)拥有循环结构,可以持续保存信息。过去几年里,RNN在语音识别和翻译等许多问题上取得了难以置信的成功,而成功的关键在于一种特殊的RNN――长短期记忆网络。
3.“注意力模型”。“注意力”是指神经网络在执行任务时知道把焦点放在何处。我们可以让神经网络在每一步都从更大的信息集中挑选信息作为输入。例如,当神经网络为一张图片生成标题时,它可以挑选图像的关键部分作为输入。
4.神经图灵机依然有趣,但还无法胜任实际工作。当你翻译一句话时,并不会逐词进行,而会从句子的整体结构出发。机器难以做到这一点,这一挑战就被称为“强耦合输出整体估计”。
神经图灵机就是研究者们在硅片中重现人类大脑短期记忆的尝试。它的背后是一种特殊类型的神经网络,它们可以适应与外部存储器共同工作,这使得神经网络可以存储记忆,还能在此后检索记忆并执行一些有逻辑性的任务。
5.深度学习让计算机视觉和自然语言处理不再是孤岛。卷积神经网络最早出现在计算机视觉中,但现在许多自然语言处理(NLP)系统也会使用。LSTMs与递归神经网络深度学习最早出现在NLP中,但现在也被纳入计算机视觉神经网络。
此外,计算机视觉与NLP的交汇仍然拥有无限前景。
6.符号微分式越来越重要。随着神经网络架构及其目标函数变得日益复杂,手动推导出“反向传播”的梯度也变得更加困难而且容易出错。谷歌的TensorFlow等最新的工具包已经可以超负荷试验符号微分式,能够自动计算出正确的微分,以确保训练时误差梯度可被反向传播。
7.神经网络模型压缩的惊人成果。多个团队以不同方法大幅压缩了训练一个良好模型所需的素材体量,这些方法包括二值化、固定浮点数、迭代修剪和精细调优步骤等。
这些技术潜在的应用前景广阔,可能将会适应在移动设备上进行复杂模型的训练。例如,不需要延迟就可以得到语音识别结果。此外,如果运算所需要的空间和时间极大降低,我们就可以极高帧率(如30 FPS)查询一个模型,这样,在移动设备上也可以运用复杂神经网络模型,近乎实时地完成计算机视觉任务。
8.深度学习和强化学习继续交汇。在“端对端”机器人等领域出现了令人激动的进展,现在机器人已经可以一起运用深度和强化学习,从而将原始感官数据直接转化为实际动作驱动。我们正在超越“分类”等简单工作,尝试将“计划”与“行动”纳入方程。
9.批标准化。批标准化现在已经被视作评价一个神经网络工具包的部分标准。
10.神经网络研究与优化齐头并进。创造新的神经网络方法需要研究者,还需要能将它们迅速付诸实践的方法。谷歌的TensorFlow是少数能够做到这些的库:使用Python 或 C++等主流编程语言,研究者可以迅速创作新的网络拓扑图,接着在单一或多个设备上进行测试。
AI未来
在计算机视觉上,未来的人工智能应更加注重效果的优化,加强计算机视觉在不同场景、问题上的应用。
在语音场景下,当前的语音识别虽然在特定的场景(安静的环境)下,已经能够得到和人类相似的水平。但在噪音情景下仍有挑战,如原场识别、口语、方言等长尾内容。未来需增强计算能力、提高数据量和提升算法等来解决这个问题。
在自然语言处理中,机器的优势在于拥有更多的记忆能力,但却欠缺语意理解能力,包括对口语不规范的用语识别和认知等。人说话时,是与物理事件学相联系的,比如一个人说电脑,人知道这个电脑意味着什么,或者它是能够干些什么,而在自然语言里,它仅仅将"电脑"作为一个孤立的词,不会去产生类似的联想,自然语言的联想只是通过在文本上和其他所共现的一些词的联想, 并不是物理事件里的联想。所以如果要真的解决自然语言的问题,将来需要去建立从文本到物理事件的一个映射,但目前仍没有很好的解决方法。因此,这是未来着重考虑的一个研究方向。
当下的决策规划系统存在两个问题,第一是不通用,即学习知识的不可迁移性,如用一个方法学了下围棋,不能直接将该方法转移到下象棋中,第二是大量模拟数据。所以它有两个目标,一个是算法的提升,如何解决数据稀少或怎么自动能够产生模拟数据的问题,另一个是自适应能力,当数据产生变化的时候,它能够去适应变化,而不是能力有所下降。
二.人工智能的发展趋势与前景
1.人工智能现阶段取得的成果
2.发展趋势
3.趋势一:AI于各行业垂直领域应用具有巨大的潜力
4. 人工智能市场在零售、交通运输和自动化、制造业及农业等各行业垂直领域具有巨大的潜力。而驱动市场的主要因素,是人工智能技术在各种终端用户垂直领域的应用数量不断增加,尤其是改善对终端消费者服务。
5. 当然人工智能市场要起来也受到IT基础设施完善、智能手机及智能穿戴式设备的普及。其中,以自然语言处理(NLP)应用市场占AI市场很大部分。随着自然语言处理的技术不断精进而驱动消费者服务的成长,还有:汽车信息通讯娱乐系统、AI机器人及支持AI的智能手机等领域。
6. 趋势二:AI导入医疗保健行业维持高速成长
7. 由于医疗保健行业大量使用大数据及人工智能,进而精准改善疾病诊断、医疗人员与患者之间人力的不平衡、降低医疗成本、促进跨行业合作关系。此外AI还广泛应用于临床试验、大型医疗计划、医疗咨询与宣传推广和销售开发。人工智能导入医疗保健行业从2016年到2022年维持很高成长,预计从2016年的6.671亿美元达到2022年的79.888亿美元年均复合增长率为52.68%。
8. 趋势三:AI取代屏幕成为新UI/UX接口
9. 过去从PC到手机时代以来,用户接口都是透过屏幕或键盘来互动。随着智能喇叭(SmartSpeaker)、虚拟/增强现实(VR/AR)与自动驾驶车系统陆续进入人类生活环境,加速在不需要屏幕的情况下,人们也能够很轻松自在与运算系统沟通。这表示着人工智能透过自然语言处理与机器学习让技术变得更为直观,也变得较易操控,未来将可以取代屏幕在用户接口与用户体验的地位。人工智能除了在企业后端扮演重要角色外,在技术接口也可承担更复杂角色。例如:使用视觉图形的自动驾驶车,透过人工神经网络以实现实时翻译,也就是说,人工智能让接口变得更为简单且更有智能,也因此设定了未来互动的高标准模式。
10. 趋势四:未来手机芯片一定内建AI运算核心
11. 现阶段主流的ARM架构处理器速度不够快,若要进行大量的图像运算仍嫌不足,所以未来的手机芯片一定会内建AI运算核心。正如,苹果将3D感测技术带入iPhone之后,Android阵营智能手机将在明年(2017)跟进导入3D感测相关应用。
12. 趋势五:AI芯片关键在于成功整合软硬件
13. AI芯片的核心是半导体及算法。AI硬件主要是要求更快指令周期与低功耗,包括GPU、DSP、ASIC、FPGA和神经元芯片,且须与深度学习算法相结合,而成功相结合的关键在于先进的封装技术。总体来说GPU比FPGA快,而在功率效能方面FPGA比GPU好,所以AI硬件选择就看产品供货商的需求考虑而定。例如,苹果的FaceID脸部辨识就是3D深度感测芯片加上神经引擎运算功能,整合高达8个组件进行分析,分别是红外线镜头、泛光感应组件、距离传感器、环境光传感器、前端相机、点阵投影器、喇叭与麦克风。苹果强调用户的生物识别数据,包含:指纹或脸部辨识都以加密形式储存在iPhone内部,所以不易被窃取。
14. 趋势六:AI自主学习是终极目标
15. AI“大脑”变聪明是分阶段进行,从机器学习进化到深度学习,再进化至自主学习。目前,仍处于机器学习及深度学习的阶段,若要达到自主学习需要解决四大关键问题。首先,是为自主机器打造一个AI平台;还要提供一个能够让自主机器进行自主学习的虚拟环境,必须符合物理法则,碰撞,压力,效果都要与现实世界一样;然后再将AI的“大脑”放到自主机器的框架中;最后建立虚拟世界入口(VR)。目前,NVIDIA推出自主机器处理器Xavier,就在为自主机器的商用和普及做准备工作。
16. 趋势七:最完美的架构是把CPU和GPU(或其他处理器)结合起来
17. 未来,还会推出许多专门的领域所需的超强性能的处理器,但是CPU是通用于各种设备,什么场景都可以适用。所以,最完美的架构是把CPU和GPU(或其他处理器)结合起来。例如,NVIDIA推出CUDA计算架构,将专用功能ASIC与通用编程模型相结合,使开发人员实现多种算法。
18. 趋势八:AR成为AI的眼睛,两者是互补、不可或缺
19. 未来的AI需要AR,未来的AR也需要AI,可以将AR比喻成AI的眼睛。为了机器人学习而创造的在虚拟世界,本身就是虚拟现实。还有,如果要让人进入到虚拟环境去对机器人进行训练,还需要更多其它的技术。
未来,我们需要去探讨:
(1)创造力,对于创造力目前有一定的方法慢慢研究,从而使机器开始具有人的一些创造力。但它的通用性受限,特别是对物理事件的理解,只有把这些问题解决了,才有可能造出像人一样的机器人,成为人的意义上的智能。
(2)学科交叉融合,未来需要探索更多的算法和交叉科学上等等的一些融合。所以人工智能在下一个阶段既有非常广阔的应用前景,也有很多挑战。下载本文