摘要:随着大数据时代的来临,当前深度学习正在蓬勃的发展,是非常流行的一门学科[1]。很多学者都在这个领域研究,他们的研究涉及深度学习在现实生活中的各个层面中[2]。研究的主要是实际的应用问题,比如在图像识别,语言翻译,生物医学方面。研究的主要卷积神经网络算法包括LeNet, AlexNet, VGGNet, GoogleNet,ResNet[3]。本文分析整理了大量的文献资料,主要从论文期刊的发表角度研究深度学习的发展状况。本文搜集了近20年发表的主题为深度学习的期刊论文,整理了深度学习文献的发表数量,研究主题,通过这些研究可以定位当前的研究现状和主要研究问题。
关键词: 深度学习, 卷积神经网络,人工智能
一、引言
日常生活中,不论是图像识别,智能分类,都离不开深度学习的使用。前人对深度学习的各种算法做了充分的研究,其中就包括近年来研究较多的卷积神经网络算法,循环递归神经网络的算法等等[4]。本文希望能够从海量的数据中,分析出当前深度学习的研究现状。从而了解深度学习在各个行业的使用情况是怎么样。而且通过对不同论文的分析,可以从中得知,在校生深度学习研究方向和现状。通过对文献的来源渠道可以知道核心期刊中深度学习的研究情况。从而可以估算深度学习研究的大众化水平是怎样。通过对深度学习文献数量上的分析,也很容易可以得知近年来深度学习的发展的速度是怎么样的。帮助读者了解当前哪些问题是深度学习的热门话题,同时可以帮助读者预知未来的深度学习的发展的趋势。帮助读者更好的选择自己的研究方向,同时站在巨人的肩膀上进行自己的研究工作。
二、数据来源与采集
本文数据来源于知网,知网是中国权威的知识服务平台,知网平台内容权威,涵盖各类论文核大量的期刊,是学者研究学习的重要的网站。本文使用从知网上搜集了最近10年的以深度学习为主要研究主题的论文数量和期刊数量,来研究深度学习在国内的发展状况。
三、深度学习研究的发展趋势
我们已知的最早的深度学习概念2008年起源于加拿大的一所大学。他们开发了一个深度学习python库,名称是Theano[5]。Theano继承了Numpy库,使得开发更加简单。同时Theano支持GPU运算,GPU可以用于深度学习模型的矩阵乘法中,通过对数据的并行计算,提高深度学习的计算能力。不过Theano的缺点也是很明显的。比如,学习难度大,编译复杂图形速度慢等等。所以这个初期的深度学习库不具备大规模实际应用价值的。现实生活对深度学习的数据计算能力提出了更高的要求。后来慢慢的发展出了Tensorflow。TensorFlow是Google在2015年正式开源的框架。Tensorfow是一个基于数据流编程的数学系统,具有很好的跨屏平台能力。各类工具和生态完整。Tensorflow的计算图中每个节点都是数算,而边则代表依赖关系。Tensorflow的api非常强大,支持许多编程语言。不过Tensorfow的缺点是调试难度大,版本兼容性不好等等。不过这并不影响它成为主流的深度学习框架,在现实工作生活中占据主流位置。 另外的深度学习框架PyTorch由于2017年开源。PyTorch框架的优点是简单易用,生态完整,计算速度快,缺点是不便于进程分布式和并行式操作。Pytorch也是现在比较流行的框架。同时国内也在2016年发布了飞浆,2020年MindSpore,Jittor,Oneflow也宣布推出。虽然深度学习发展起步相对晚,不过发展很快。
本文搜集了1990年至今,每年在知网上发表的论文和期刊总数。因为其他学者的研究中也有说明过,深度学习的研究结果初具使用意义的时间基本是在2000年以后,在此之前的研究都是理论上的,或者因为各种原因不具备使用价值。通过知网的数据,我们大概可以清楚的分析出深度学习的发展状况。通过搜集整理了知网1990年至今每年的论文发表数量,作者制作了这个论文发表数量图,即图1:
图1 知网以深度学习为关键词的论文发表数据
从上图中可以看到,2008年深度学习的概念还没有被国外学者提出,国内相关论文的数据是0,这也反应了我国在深度学习研究上的相对滞后。随后论文的发表数量从2017年开始快速的增加。本篇文章的撰写时间是2023年8月,这时论文的发表数量是730多篇。可见Tensorflow等库的开源对后续的深度学习具有积极的促进作用。在2018年的时候,深度学历硕博论文发表数量是3009篇,相比2017年增加了1771篇,而在2019年的论文发表数量5373篇,2020年的发表数量达到了8031篇。2021年9372篇,2022年稍微回落,不过论文数量也达到了8307篇。从2016年至2021年,深度学习相关论文的数量基本上是呈现出指数化发展的趋势。
另外,笔者从国家统计局官网上查询结果。2020年在学研究生314.0万人,毕业生72.9万人。普通本专科招生967.5万人,在校生3285.3万人,毕业生797.2万人,在这样的学生数量上看,研究深度学习这门学科的学生其实还是相对稀缺。
2020年我国硕士生人数341万,同年发表的论文数大约8000篇,占比约0.23%,所以深度学习在学校硕博生中的占比并不高。
四、核心期刊关于深度学习的文章数量研究
核心期刊首先代表着高水平的文献。关于核心期刊,不仅仅是学术评定和科研成果的衡量的指标,同时也是促进知识的融通共鉴的方式[6]。核心期刊的质量相对一般期刊的质量更高,而且影响力也更大。而且可以为读者提供更加明确的学习方向。核心期刊的权威性以及其评测体系严谨,让读者更加信赖,可以代表某个学科的最高水平和学科的最新最权威的发展现状[7]。本搜所及了知网上来源为SCI, EI,北大核心,CSSCI,CSCD,AMI这些核心期刊的关键词为深度学习的文献。从中研究深度学习研究的情况和热度以及主要主题。作图2:
图2 2008年~2023年知定期刊以深度学习为关键词相关研究数量
从图中可以得知,在2008年之前还是没有学者研究深度学习。我们从过往的文献可知,LeNet卷积网络的提出时间是20实际90年代,Theano学习框架的提出是2008年左右。在此之前我国还未查询到研究文献[8]。这也与论文的发表相对应。国内对深度学习的研究,并不是世界先进水平,可以说我们在深度学习上是根据国外学者的研究进而学习研究的。并且,期刊的发表数量趋势和学位论文的发表趋势是相近的。都是从2016年开始快速的攀升,从2016年的200多篇上升到了2023年的6000多篇。引起这个快速上升的时间恰好是2015年Tensorflow正式开源的时间。这个也与论文发表急剧上升的时间节点相同。由此可知Tensorflow,PyTorch等框架的开源对后续的深度学习的进程起到了非常重要的作用。深度学习框架的之所以对后续发展这么重要,主要是以下几个原因1、接口语言支持C++,Python,Java,Javascript,R,go 丰富的资源和平台支撑,使得学者可以快速的掌握。2、深度学习框架可以完成卷积,池化等处理,这些算法对后续研究至关重要。3、深度学习在日常生活中的应用更加的广发,促使职位的增加,从而加快了学者对深度学习的研究步伐。深度学习后期的发展仍然非常的依赖这些框架,所以框架生态的完整,开发环境的可用性,对各个平台的支持程度也是重要的研究问题[8]。
五、深度学习研究高频主题
为了能更加了解深度学习在论文中的主要主题,本文搜集了2022年以来知网发表以深度学习为关键词的硕博论文,通过对论文标题的分析,提取出了全部的研究关键词,作图3:
图3 知网深度学习硕博论文的研究关键词
从提取到的信息,经过数据的整理和分析可以知道,当前各位学者都在研究的主要内容是:算法,预测,神经网络, 图像识别,目标检测, 特征, 模型, 光谱, 影像, 网络, 对抗, 卷积等等。这些都是研究的主要高频词汇。 问问通过对这些主要研究关键词进行词频统计,并且从这数百个研究主题中选择出了关键词词频排名前十的主题,作图4:
图4 2022年~2023年知网以深度学习为关键词文章主题词频
从这张图中我们可以知道,研究最多的是关于算法。其次是基于图像的研究和遥感的研究。关于神经网络算法的研究也很靠前。同时,深度学习研究在影像,故障诊断,视频方面的研究也很多。识别跟踪也是重要的研究方向,其次是语义的研究。本文只是根据知网的数据罗列了一些高频词,不代表全部。在全部的研究主题中关于算法,图像,遥感的研究总和占据了全部研究的72.4%。
首先,关于深度学习研究的算法方面,深度学习属于机器学习的一个领域。深度学习的逻辑是通过对样本的计算得出规律。从中学习得到信息。然后用于识别和预测。是一种机器学习算法,对于图像和语音等非结构化数据的研究方面取得了前所未有的进步[9]。从过往文献中我们知道深度学习的算法主要可以分为三大类别。分别是:卷积神经网络,自编码神经网络,深度置信网络[10]。其次,基于深度学习的图像方面的研究,目前的主要研究集中在图像的识别,目标检测,图像强化等方面,广泛应用于医学诊断,影像处理,图像分类等方面。之后,基于深度学习的遥感方面的研究,遥感作为一种远距离和非接触的探测技术,使用卫星或者光学仪器和电子设备来探测和识别远距离对象。文本搜集到的论文主要是在研究图像的边界识别,目标识别,目标分类方面的应用。
六、结语
通过对知网上过往和现状的文献研究数量和研究主要内容的研究,本文揭示了深度学习的发展趋势和重要的研究主题。深度学习因为其在各个行业的广泛使用,近年来学者的研究数量持续的上升。深度学习每年的研究人员数量上升率是在最近几年最大超过100%。 同时,从过往的文献可以知道,深度学习对框架的依赖是很强的。一个好的框架,可以帮助深度学习研究的顺利展开。市场上最为火热的研究框架是Tensorflow和PyTorch。这些框架对研究学习和日常使用发挥了非常重要的作用。是今后学者研究的热门框架。深度学习从开发提出到发展,在中国只有短短数十年时间,所以在未来仍然由非常广泛的发展潜力。从时代的发展上来看,深度学习依然充满机会,深度学习在日常生活中的作用也越发重要了。
参考文献:
[1]周勇, 吴瑕, 周为, 等. 深度学习发展来源研究[J]. 数码世界, 2016(10): 126.
[2]张昊东, 李林宗. 深度学习发展的挑战及前景探讨[J]. 中国新通信, 2020, 22(11): 217.
[3]周楠 和 欧阳鑫玉 - 2021 - 卷积神经网络发展.pdf[J]. .
[4]谭笑枫, 李广帅. 深度学习发展综述[J]. 第十五届地球物理专题研讨会, 中国甘肃张掖: 2019: 252–260.
[5]唐晓彬, 沈童. 深度学习框架发展综述[J]. 调研世界, 2023(04): 83–88.
[6]对核心期刊现象的思考[M]. 安徽理工大学学报(社会科学版), 2004(02): 104–107.
[7]李新春. 核心期刊概念,作用与测评[A]. 第五届全国核心期刊与期刊国际化、网络化研讨会[C]. 中国四川成都: 2007: 276–279.
[8]薛晨兴. 国内外深度学习框架分析与研究[J]. 电子元器件与信息技术, 2023, 7(05): 66-71+87.
[9]陈先昌, 黄亮. 基于卷积神经网络的深度学习算法与应用研究[D]. 浙江工商大学, 2014.
[10]侯宇青阳, 全吉成, 王宏伟. 深度学习发展综述[J]. 舰船电子工程, 2017, 37(04): 5-9+111.
作者简介:许碧婷(1988.09.24),女,汉族, 陕西西安人,研究方向:统计学下载本文