通过K-Means聚类方法,从科学文献和技术专利文本混合文本聚类,以及科学文献和技术专利文本独自聚类,这两个角度来探究科学和技术的关系。在混合文本聚类中,从文本量的角度出发,分析科学和技术文本在整体中的研究分布的相关性;而在科学和技术独自聚类的视角下,通过计算聚类之间的相关性,以及借助降维的可视化方法,来探索科学和技术各自聚类间的相关性,并在最后引入时间维度,探索科学和技术不同聚类中相关性逐年的变化趋势。本文从多角度出发提供了一个分析科学和技术关系的分析框架。最后,选取固体氧化物燃料电池为例展开分析。
1.1研究意义
科学和技术之间的关系一直以来都是热门研究领域,不少学者认为科学会给技术带来创新力,指出技术创新中10%的内容诞与科学学术研究的产出和贡献是密切关联的,如果缺少学术贡献作为支撑,这10%的内容将会延迟许久才会得以实现[1];学者Narin通过分析美国专利中对科学学术领域文献的引文关系展开研究和分析,从专利的非专利引文分析角度出发,发现在美国本地,技术专利对学术文献的引文量不断增长,在6年内翻了一番[6],表明技术专利对于学术研究产出的依赖性不断增强,也证明了科学确实能够促进技术的创新;基础学科对技术创新的影响方式可以划分成6种[21],其中最为主要的前三种分别是,以X光照相技术为代表的重大科学领域发现直接就被应用到技术实现领域,还有杂交水稻为代表的科学理论研究已经有一定基础,但是新的科研发现将以往的科学基础知识积累有机会落实到技术实用层,以及学术理论体系已经搭建得十分完备,全新的技术脱胎于这个学术理论体系,代表技术为晶体管。同时技术的进步也可以带来科学的突破,Meyer在2003年指出,科学文献中对于专利文本的引文量在不断增加,科学的创新也开始逐渐受益于技术的突破[2]。所以通过研究科学和技术之间的关系,我们可以更好地让科学和技术相互促进,产学互助。
通过熟悉科学与技术之间的关系,我们还可以更加准确地识别出科学和技术中的新兴领域[3],为科研管理人员和政策制定者提供有力的决策支持。
1.2文献综述
1.2.1科学与技术的关系
科学和技术的关系在上个世纪已经在学术界展开讨论,从最早的简单线性模型开始,学者认为技术的创新都是直接得益于学术研究,由学术研究成果的溢出效应来促进技术的进步,但随着研究的深入,简单线性模型逐渐被否定掉[4],并提出了链联接模型,对传统的线性模型进行修正,指出技术的创新并不全是直接得益于学术研究成果溢出效应的影响而带来的,技术的创新除了会受到学术知识的影响,也会受到自身相关技术研究的影响,相反,学术领域的研究也会受到技术突破的影响,科学和技术两者是一个双向影响的关系[5]。Price和Rip两人先后也纷纷提出科学和技术之间的关系就像是跳着舞的一堆拍档(dancing partners),认为两者之间没有永恒的主导者,彼此之间是互不相同但是又互惠互利的一种关系[22]。
随着研究的不断深入,以Rosenberg为代表的学者开始专注于科学和技术之间的知识流动,并且得出结论:技术的发展往往是早于科学研究的,常常对科学研究的发展起到指导和引领作用[22]。除此之外,对于科学和技术关系研究进行更细致的划分,划分成渐进式的演变和突破性地演变两个角度进行科学和技术关系的探究,并得到结论,科学技术演变是突破性的或渐近式的,很大程度依靠于自身依照的研究实践原则[23]。
在我国,科学和技术关系的诠释也通过引入其他视学科知识,从不同视角展开分析,使得科学和技术关系的研究得到了进一步地发展。如通过引入制度理论中的合法性来诠释科学研究与新兴技术实现的关系,通过划分认知、规范和规制三层的合法性,从主观接受度层面出发,将科学研究到新技术实现这个过程与科研内部人员和外部人员对这个新领域的接受度不断增强的过程匹配,得到的结论是:基础科学到技术创新实践这一知识流动的过程伴随着的是科研领域和工业领域相关人员对这个领域科学和技术内容的接受度不断提高,认可度不断增加的过程[24]。
1.2.2常用分析方法
当前主流的探究科学和技术的分析方法有以下三种:
1.2.2.1引文分析
引文分析可以划分成基于引文量和基于引文聚类两个角度展开分析。在引文量分析角度下,通过分析科学文献对技术专利的引文情况[2],或者技术专利对科学文献的引文情况[6,在文献计量学角度下,分析技术专利和科学文献之间的关系。而基于引文聚类的分析则是先依据引文关对文本系进行聚类,然后再分析科学和技术聚类之间的关系,从而探究科学和技术关系,常用的聚类的方法是拓扑聚类(Topological Clustering Method)[7]。
应用引文聚类分析方法来探究科学和技术关系或者两个不同领域的关系时,研究方法大致可划分成以下两种:将科学文本和专利文本混合起来,构建科学专利混合文本引文网络,然后再进行聚类分析[27;另外一种则是将科学文本和专利文本划分开,各自基于自身文本的引文关系来实现聚类,再对比分析科学文本聚类和技术专利聚类之间的关系[22][25]。
1.2.2.2合作分析
合作网络分析方法的核心是,基于科学文献和技术专利的文本合作关系来构建关于个人、机构和地域之间的合作关系网络,再借助合作网络来分析科学和技术关系,合作网络分析往往会结合上社会网络分析一起进行。合作分析将单一文本中共同出现的科学技术活动主体视作合作过一次,依据这种共现关系,构建科研活动主体之间的合作网络,然后通过分析科学和技术活动合作网络中的结构特征,分析科学和技术关系。现有基于合作网络分析科学和技术关系的研究内容重点落在科研活动主体在整个网络结构中的分布是如何的,通过分析网络结构洞、网络密集性、中介中心度等与信息流通相关的指标来探究合作网络信息流动的强弱对科学和技术互动的影响[8][9][10]。
1.2.2.3文本挖掘
文本挖掘在探究科学和技术关系应用中可以划分成关键词共现分析和文本主题分析。
关键词共现分析是通过抽取文本语料库中出现频率较高的词语,分析哪些文本共同使用到了这个词语,那么基于这种关键词共现的关系,这两个文本可以被视为产生一次连接。以此类推,结合上社会网络分析的方法来构建基于关键词的文本网络[11],再基于社会网络分析来对网络结构等信息进行分析和研究,探究科学和技术关系。
文本主题分析的常用方法有LDA主题模型(Latent Dirichlet Allocation)[12]和基于文本空间向量模型的文本聚类[3][26]。LDA主题模型是基于贝叶斯概率论的思路对文本进行主题抽取,在文本和词语之间增加了一个主题层,分别构建一个文本-主题概率矩阵和概率-词语矩阵,将文本中词语的概率通过贝叶斯公式拆分成文本中每个主题的概率和每个主题中含有该词语概率的加权求和表示,通过找到两个最符合文本中词语的概率的文本-主题概率矩阵和概率-词语矩阵,从而确定每篇文本对应的主题,实现科学和技术文本的聚类。而文本空间向量模型则是将语料库中的每篇文本转化为一个高维向量,通过文本向量之间的距离来对文本进行聚类。
常见的机器学习聚类算法则可以分为3类领域:原型、密度和层次[13]。其中原型聚类算法的典型代表就是K-Means(K均值聚类算法);经典的密度算法则是是DBSCAN,又称为Density-Based Spatial Clustering of Applications with Noise,该聚类算法是从数据分布的密集程度来划分种群聚类,通过定义数据点之间的可连通性的最短距离来定义数据点之间的可连续性,依据数据样本点间的可连续性来确定密集程度,从而自动实现数据点聚类;AGNES(AGglomerative NESting)则是层次聚类算法中具有代表性的一员,该算法通过先实现数据点之间的聚类,再在这些聚类的基础上实现聚类群的聚类,不断迭代上去,实现一个自下向上的层次聚类
1.3本文研究方法与思路
考虑到引文分析不可避免地会丢失大量的文本本身的语义信息,而基于关键词共现关系来进行文本分析依然只是考虑了很浅层的文本语义,故最后采用基于空间向量模型文本聚类的挖掘方法来探究科学和技术关系。本文的主要研究思路是构建科学文献和技术专利共属的文本向量空间,并通过K-Means方法实现文本聚类,从而能够直接计算科学聚类和技术聚类之间的相关性,借此研究科学和技术相似性关系。主要涉及的内容有:数据收集、数据提取和清洗、数据挖掘、文本聚类和基于聚类结果的相关性分析。相关流程图如下:
图1-1研究流程图
1.3.1研究创新点
过往的通过文本聚类来探究科学与技术关系的研究方法多是对科学和技术分别聚类,并没有将两者放在同一个文本向量空间下,导致科学聚类和技术聚类之间的研究和对比受到限制,不能直接在同一个文本向量空间直接判断科学聚类和技术聚类之间的关系。
再者,本文通过引入时间维度,并且通过降维可视化的方法,可以获取一个时间段内科学与技术聚类领域的动态关系,如单个领域在过去一个时间段内演变程度的强弱;也可以判断不同领域在过去一个时间段内,彼此之间相关性的变化,如是否越来越相关,或越来越无关,又或者处于一个稳定状态。因此,相对比过完研究方法,本文研究方法能够更加细致研究科学与技术不同领域自身和彼此之间的动态演变关系。
1.3.2研究对象
最后,固体氧化物燃料电池(solid oxide fuel cell,SOFC)相关领域将会作为本文探索科学和技术关系的研究范围。固体氧化物燃料电池是当前新能源开发的主要方向,属于第四代燃料电池[14],其能够实现高效的能源转换与存储,将化学能低损耗地转换成电能,除了转换损耗低效率高外,它本身对环境的破坏性低,而且成本也相对较低[15]。
2数据收集与预处理流程
该章节对应的是图1-1中的“数据收集”和“数据提取与清洗”两部分内容。
2.1数据收集
本次研究收集的数据主要有科学文献和技术专利两大部分构成。其中科学文献是从web of science的核心合集的中获取,科学引文索引扩展版(Science Citation Index Expanded,SCI-EXPANDED)等多个引文索引都囊括在web of science核心合集中,其中已经较为全面地获取到固态氧化物燃料电池相关的科学文献。考虑到德温特专利数据库含量之广大,固态氧化物燃料电池相关的技术专利文本则是从德温特中下载获取。
由于2020年份数据不完整,以及web of science中的核心合集中的许多科学文献都是1999年后才开始有明确年份记载,所以最后所以最后确定的数据采集年份范围是1999年到2019年,共21个年份的数据。但需要注意的是,本文中的技术专利文本的年份是采用其自身的申请年份时间决定,查看依照下文检索词获取到的2020年份的213篇专利文本的申请时间都是2020年之前申请的,所以在专利文本检索中,采用的年份时间是1999到2020年。
最后,在web of science中进行检索文献所用到的关键词是以固态氧化物燃料电池相关的词语。科学文献的数据来自于核心合集,年份时间是1999到2019年,检索式为“TS=((solid fuel cell*)OR(solid oxide fuel cell)OR sofc)”。技术专利的数据则源于德温特专利数据库,年份时间是1999-2020年,检索式一样为“TS=((solid fuel cell*)OR(solid oxide fuel cell)OR sofc)”。
2.2数据提取和清洗
主要设计三部分内容:将关键字段的信息从原始数据提取出来;并且将重复文本、缺乏关键字段的无效文本从数据源中剔除;将关键字段进行分词处理。
数据的提取将科学文献和技术专利中的标题和摘要字段的信息提取抽来,还有年份字段的信息提取出来。相对比科学文献中的标题和摘要字段的提取,专利中的摘要字段信息包含的内容会更加细致,有更多的可选取字段添加到专利摘要中,其中最常见的字段有新颖性(NOVELTY)、应用方向(USE)、优势(ADVANTAGE)和详细说明(DETAILED DESCRIPTION)和附图说明(DESCRIPTION OF DRAWING(s)),由于附图说明的信息在原始数据中并没有,所以最后选取了前四个子字段作为摘要字段的信息进行提取。科学文献的年份时间是通科学文献自身的发文时间确定,而技术专利的年份是指专利自身的申请时间。
数据的清洗则主要关注的是科学文献或者专利文献中的年份信息是否丢失或并不是位于1999到2019期间,以及去除其中重复的文本信息,将无效的文本信息从原始数据集中剔除出去。需要提醒的是专利文本的年份时间,由于专利文本的申请年份时间是从专利原始数据中的AD字段(申请详细信息)中获取,从德温特中获取1999年到2020年间的数据有不少的真实申请年份时间是早于1999年的,对于这部分数据需要剔除出去。
最后就是将提取出来的标题和摘要信息去除停用词和标点符号等无意义信息,并且进行文本分词处理,其中的实现是通过python中的NLTK模块实现。在分词之前,考虑到一些由若干个专业术语连续构成的专业词组会可能被切割开的情况,本次研究通过引入外部专业术语词典(glossary)来防止过度切分,其中采用的专业术语库是来自维基百科的专业术语词典等处,进行整合后最后获得了包括875个专业术语表,同时也采用了N_gram模型,将前后共同出现的2个和3个词组都汇集到分词结果中,从而防止过度切分导致的信息丢失。
最后获取到的有效科学文献和技术专利的文本量分别为23457和23339,总文本量合计46976,涵盖1999年到2019年共21个年份文本数据。
3文本聚类和相关性分析
这一章节对应图1-1中的“数据挖掘”、“文本聚类”和“相关性分析”三部分内容。
3.1数据挖掘
这一环节主要是将文本转化为文本向量,为下一环节的文本聚类做好铺垫
经过前面的处理,每篇文本转化成了一个由词语和词组组成的词袋。通过基于TF-IDF的向量空间模型,每篇文本被转化成了一个文本向量。TF-IDF的全称是term frequence-inverse document frequency,其出发思想是,单个词语在这篇文章中的重要性主要涉及两个因素,一个是这个词语在本文本中出现的频次,频次越高,对于这篇文章越重要,另一个因素则是包含这个词语的其他文本数量,如果包含这个词语的其他文本数量越少,越能证明这个词语对于这篇文章是有独特性和代表性的,所以这个词语在这篇文章中的重要性也会越高。
由于本次研究是基于文本聚类的角度探究科学文献和技术专利之间的关系,所以在构建两者的向量空间模型,也就是两者的TF-IDF矩阵时,科学文献和技术专利被共同放在同一个向量空间模型来统一进行文本向量化处理,这样子就能够保证科学文献和技术专利是同处于一个向量空间中,从而为后面的科学文献和技术专利的相关性计算奠定了基础。
考虑到向量空间模型维度过高而带来的TF-IDF文本矩阵过度稀疏的“维度诅咒”问题以及后面文本聚类的实现,当一个词语在10%-80%的文本出现过,本次研究才会将这个词语采纳进向量空间模型的维度中。这样做不但可以有效减缓词语过多带来的TF-IDF文本矩阵过度稀疏的问题,同时也为后面的文本聚类筛选出有价值的词,如果一个词语几乎每篇文本都含有,那么它本身是不能为文本不同聚类之间的区别带来价值的,同时如果一个词语只在很少数的文本出现,会加大TF-IDF矩阵稀疏度,文本聚类结果不佳。
最后提取出来了共85维的科学文献和技术专利共存的文本向量空间。而且实验通过引入外部专业术语词典和1-3 gram模型,成功地防止了fuel cell(燃料电池)这类专业术语被过度切分。
3.2数据聚类
正如前文所提及,聚类算法有许多种,可以划分成基于原型的,基于密度的,基于层次的等等,而本次实验对于TF-IDF矩阵的聚类采用的聚类算法是经典的K-Means算法,也就是k均值向量算法。
3.2.1K-Means特点
K-Means相对比其他的聚类算法,其对计算硬件设备要求并不高,可执行性强,而且算法原理直接,最终出来的聚类效果较佳,所以最后决定采用K-Means聚类算法。
K-Means算法的核心是围绕着k个均值向量展开。在数据样本集合中,K-Means找到k个均值向量,分别代表k个聚类种群,将所有的数据样本点分别划分到这k个均值向量代表的k个聚类种群中,从而实现k个种群的聚类。关键点是让各个数据样本点尽可能靠近这k个均值向量,越靠近,聚类效果越好。
实现算法的主要思路是:初始确定k个数据点作为均值向量,也就是k个样本聚类的质心,然后将其余数据点按照与这k个质心的聚类远近进行划分聚类归属,从此得到k个聚类群;再然后计算这k个聚类群自身的向量均值,充当新的一组质心,重复以上步骤,不断迭代,使得数据样本集合中的数据点离k个均值向量越来越近,最终确定k个均值向量,实现样本的聚类[16]。
3.2.2k值的确定
这一步骤主要是确定K-Means聚类算法中的聚类的个数,也就是k值。而判断k值的基本思路就是防止聚类个数过多的前提下,让不同聚类之间的分隔尽可能清晰且单个聚类的内部尽可能聚集,用最小代价换来尽可能好的聚类效果。常用的判断聚类效果的指标有[19]:
(1)误差平方和:SSE,Sum of the Squared Errors[19]
SSE指标也是K-Means自身的目标损失函数,具体计算方式如下:
(1)
当SSE越小,也就表明数据样本点与各自对应的均值向量越近,聚类效果越好。
(2)DB指数
DB指数又称为Davies-Bouldin指数,计算公式如下[19]:
(2)
其中k代表聚类个数,表示的是第i个聚类中各个数据样本点之间的平均距离,则代表第i个聚类和第j个聚类的均值向量之间的距离。DB指数通过计算聚类内部点与点之间的距离和不同聚类之间的均值向量聚类,结合内部聚集程度和外部分离程度来确定聚类效果,当聚类效果越好,DB指数将会随之越小,反之,DB指数则会越趋向1。
(3)DI指数
DI指数全称又称为Dunn指数,计算公式如下[19]:
(3)
k代表的是聚类个数,指的是分属于第i个聚类和第j个聚类群体中的两个数据点最近的距离,也就是两个聚类最近距离;表示第l个聚类中两个离得最远的数据样本点间的距离,即是单个聚类内部最远距离。D指数和DB指数的出发点是很相似的,都是结合内部聚集程度和外部分离程度来确定聚类效果,只是D指数刚好将两者颠倒过来。DI指数越大,聚类效果越好。
本次研究的k值确定是采用的基于SSE聚类指标下的肘部法则(Elbow Method),这是目前主流的k值确定方法[17]。
如前文所提,随着k值得增大,样本划分更加细,那么样本点到对应的均值向量自然会更加近,SSE也会越来越小,所以从计算成本和最终得到的聚类效果出发,我们对于k值的选择是要在一个合理的范围内,而不是一味地追求最小化SSE,而肘部法则就是一种判断k值的常用方法。当SSE随着K值的下降而不断下降时,如果当k值在k0处前后SSE的曲线下降斜率出现一个明显的变化,在k0前SSE快速下降,k0后下降速度明显放缓,整条SSE曲线形成了一个类似肘部形状的曲线,那么k0作为肘部点,可以认为是这次训练中的聚类个数了。
但本次的实验数据中直接采用SSE的肘部法则得到的却是一条十分平滑下降的曲线,肘部点并不明显,而且考虑本次向量空间维度只有85维,如果k值过大,对于后面的聚类贴标签,解释聚类的语义含义效果会降低很多,不同聚类之间的重复标签个数会不断增多,聚类之间的语义区分将会被模糊掉。所以本次是基于SSE差值的思路来确定肘部点,将k=ki和k=ki+1之间的SSE差值曲线绘画出来,观察相邻两个k值之间的SSE差值的变化。经过这样一个SSE差值处理,我们可以找到聚类文本之间SSE的变化趋势。该曲线最终出现了较为明显的肘部点,在该肘部点之前,相邻k值聚类的SSE相差得很大,但是过了这个肘部点后,相邻k值聚类的SSE相差变化开始放缓,所以秉持着肘部法则(Elbow Method)的原则,该SSE差值肘部点对应的k值可以作为K-Means最终的聚类个数。
3.2.3聚类标签确定
这一环节主要是对基于K-Means训练聚类得到的K个聚类赋予上语义。
正如前文所提K-Means本身是一种基于原型的聚类算法,其中每个聚类的均值向量就是这个聚类的原型代表,所以通过观察均值向量中各个维度中TF-IDF数值最高对应的词语本身就可以很大程度上代表该聚类的语义。
所以对于K个聚类的语义标签,本次研究是通过获取每个聚类中的均值向量,选取各自均值向量中TF-IDF数值最高的若干个词语来标注k个聚类[3][4]。
3.2.4聚类的文本对象
本次研究将进行三次K-Means聚类,分别是科学文献和技术专利混合的TF-IDF向量矩阵,基于科学文献的TF-IDF向量矩阵和基于技术专利的TF-IDF向量矩阵。从“先整体,再细分”的两个维度展开研究和讨论。
本次K-Means聚类的实现是通过Python的sklearn模块,借助sklearn中的clusters.KMEANS来实现聚类分析。
3.3相关性分析
这一个步骤主要包括两部分内容:文本聚类之间的相关性分析,以及将聚类分析后的结果进行降维可视化
3.3.1文本聚类的相关性分析
本次实验的相关性计算划分成两种,一个是基于科学文献和技术专利的文本量的研究热点分布相似性,另一个则是基于TF-IDF向量空间的聚类之间的文本语义相似性。
基于科学文献和技术专利的文本量的研究热点分布相似性是建立在将科学文献文本和技术专利文本混合进行K-Means聚类后的结果进行。将科学和技术文本混合聚类后可以将整体文本划分成若干个聚类群,然后分别统计科学文献和技术专利分别在每个聚类群中的文本数量,基于各自在每个聚类群中的数值构建成一个关于科学和技术的研究热点向量,然后计算两者各自的研究热点向量的余弦值就可以判断科学文献和技术专利在整体的研究热点分布的相似性。具体的计算公式如下:
(4)
VS和VT分别表示科学文献和技术专利在整体文本的各个聚类中的文本量构成的向量,Pi指的是科学文献在第i个聚类群中的文本文本量,Ai指的是技术专利在第i个聚类群众的文本文量。R1则是描述科学文献和技术专利在整体聚类中的研究分布相似性。
另一个基于TF-TDF向量空间的文本语义相似性,则是用来计算每个聚类群之间的相似性,回顾上文的K-Means算法,K-Means是一种基于原型的聚类算法,其中k个聚类群体各自的均值向量视作为各自的原型,所以聚类之间对应的均值向量的余弦相似性可以在很大程度上描述出聚类之间的相似性。具体的聚类之间的相似性计算公式如下:
(5)
其中C1和C2分别指的是科学文献或技术技术专利各自聚类后得到的任意两个不同的聚类群,μ1和μ2是两个聚类群各自对应的均指向量。R2则是C1和C2两个聚类群的文本语义相似性。
以上两个相似性分别用于科学技术混合文本聚类分析,以及科学和技术文本独自聚类分析中,从两个维度来更全面地探究科学文献和技术专利之间的关系。
3.3.2相关性可视化
由于基于TF-IDF的向量空间模型获取到的文本向量是一个高维向量,不利于可视化观察,阻碍了不同聚类之间相关性的探索,所以本文采用PCA主成分分析方法来实现降维,从二维平面可视化角度来更加直观清晰地展示和识别科学和技术之间的相互关系。
PCA主成分分析法的核心是将原本处于m维空间的数据样本点投影到n维(n<m)的超平面空间,为了尽可能减少降维所带来的数据样本点的信息的丢失,PCA主成分分析从“样本点到n维的超平面的距离最小”以及“数据样本点在n维超平面的投影尽可能分开”两个维度来确定这个n维超平面,尽可能减少降维带来的信息丢失[19][20]。
4科学和技术混合文本聚类分析
如按照前文所提的数据处理框架,经过清洗和提取后最终得到的有效科学和技术文本量分别为23457和23339,总文本量合计46976。文本年份从1999年到2019年,共有21个年份的文本数据。下文将基于获取到的数据进行混合文本聚类分析。
4.1文本聚类
4.1.1K值的确定
图3-1科学文献和技术专利混合文本K-Means的SSE差值图
在SSE差值图中横坐标的含义是,index为1时,表示的是k值为1和k值为2的K-Means聚类结果的SSE的差值,index为2则是表示k值为2和k值为3的K-Means聚类结果的SSE的差值,往后以此类推。从上图不难看出在聚类个数相邻的K-Means聚类结果的SSE差值在序号为三处出现一个肘部点,前后的SSE差值下降速度出现明显的差别,所以在序号三处可以视为一个肘部点。所以在k值为3和k值为4处可以作为科学文献和技术文献的混合文本的聚类个数,本次实验采取的是k值为4进行K-Means聚类。
4.1.2聚类标签
科学文献和技术专利的混合文本一共被划分成了4个群体,下面对每个聚类群体进行语义标签识别。
按照前面所提及的策略,每个聚类是可由聚类自身的均值向量所代表,所以通过观察聚类对应的均值向量各个维度词语对应的TF-IDF数值来确定聚类的语义标签,其中TF-IDF数值越大,越能说明这个维度词语是这个均值向量的特征,也就是这个均值向量所在的聚类群的特征。本文的表1、2和3的聚类标签是选自于维度数值较大且解释性更佳的词语,并不是一味地按照数值从大到小获取。
这四个聚类群体的语义标签如下:

表1科学文献和技术专利混合文本聚类标签与对应领域
聚类群序号聚类群标签词语聚类领域
0 degree,anode,temperature,cathode,delta,sr,cell,cm,conductivity,electrolyte,performance关于燃料电池中温度、燃料电池正负极电解质材料组成和传导性能的相关领域
1 material,solid,catalyst,fuel cell,polymer,film,metal,electrolyte,comprise,oxide,carbon,solution,method,form,surface,关于燃料电池催化剂材料、燃料电池聚合物电解质溶液相关领域
2 system,gas,fuel cell,fuel,stack,flow,power,supply,hydrogen,unit关于燃料电池气供应系统对于燃料电池能量的影响作用
3 layer,electrode,electrolyte,fuel cell,surface,form,anode,air,material,porous,cathode关于燃料电池的开孔层电极材料的相关领域
对于上述部分词语的解释:cm是由于前期数据清洗时候切分出错,真正的全部形态是W/cm2,表示单位面积的功率;temperature则是用来描述不同种类的固态燃料电池,固态燃料电池可以划分成中等温度燃料电池等多种类别;sr是固态燃料电池中常见的化学元素组成成分锶;delta用来描述正负极材料或者电解质材料的组成成分,例如Bi0.5Sr0.5FeO3-delta。
4.2描述性分析
4.2.11999-2019年间4个聚类群的描述性分析
图3-2科学文献和技术专利混合文本的聚类文本量分布
在这四个聚类中,科学文献的文本量分别是14199、3951、3766和1541,而技术专利的文本量则是640、10033、7530和5136。从上文柱状图中不难发现,除了聚类0中科学文献的文本量远超过技术专利文本量,其余的三个聚类领域都是技术文本量多余科学文献的。也由此可以推断,科学文献更加关注领域0,也就是“燃料电池中温度、燃料电池正负极材料和传导性能的相关领域”。
4.2.24个聚类群的逐年文本量分析
(1)聚类0的描述性分析
图3-3聚类0的文本量柱状图图3-4聚类0的文本量折线图
在领域0中,技术专利的申请数量一直都是十分少,而科学文献的发文量则是远远超过技术专利,从1999年开始不断上升,到2017年达到顶峰,目前出现了一定的下滑趋势,目前该领域可能是处于成熟期。
(2)聚类2的描述性分析
图3-3聚类2的文本量柱状图图3-6聚类2的文本量折线图
不难看出在2017年前,该领域的专利文本量一直都是大于该领域的科学文献文本量的。技术专利的文本量从1999年开始增长,一直到2006年到达顶峰,随后在整体上开始呈现出不断下降的趋势。而科学文献则是在这个领域不断增长,目前从文本量来看,依旧是处于一个不断成长的时期。
(3)聚类3和聚类1的描述行分析
图3-7聚类3的文本量柱状图图3-8聚类2的文本量折线图
图3-9聚类1的文本量柱状图图3-10聚类1的文本量折线图
领域3和1的科学文献和技术专利文献的变化趋势与领域2相同,都是前期技术专利文本量在该领域占主导地位,到后面科学文献文本量不断上升和反超技术专利文本量
(4)小结
从逐年的分析可以看出,在固态电池燃料这个领域中,整体上在这21年间的前段时期,技术专利的申请量不断增加,在2005-2006年达到各自领域的顶峰,但是随后就出现了整体下滑的趋势,而科学文献则是在这21年前一直都保持这较为稳定的增长趋势,个别领域进入了一个成熟期,但多数领域依旧是处于一个成长期的阶段。
4.3相关性分析
此处的研究分本相似分析是依照前文所提及的基于科学文献和技术专利的文本量的研究热点分布相似性,具体的计算公式为R1(1),下面从逐年分析的角度展开分析。
图3-4科学文献和技术专利在4个领域中的逐年研究分布相关性
由上图可以看出,科学文献和专利技术在这4个研究领域中的研究分布的相关性一直波动在0.4到0.6之间,总体的相关性并不大。从1999年开始上升,到2004年出现下滑,又到2012年重新上升,整体的波动性并不大。也由此可以确定,在固体燃料电池领域,从文本量的角度出发,科学和技术各自的研究重点具有一定的区分度,两者的研究关注重点并不完全一致,各自有各自的研究重心。
4.4小结
除了聚类0所代表的“关于燃料电池中温度、燃料电池正负极电解质材料组成和传导性能的相关领域”表现出科学文献文本一直远远超过技术专利文本,其余的三个研究领域都是前期技术专利文本申请量明显高于科学文献发文量,而到后期,技术专利申请量纷纷都出现了下滑趋势,而科学文献发文量不断上升,甚至出现了反超的情况。由此也可以推测在技术领域该研究的热度正在慢慢褪去,而科学领域的研究热度则是不断上升,到了顶峰期。
从图3-4可以看出,从文本分布量来看,科学和技术科学和技术各自的研究热点相关性一直处于在0.4和0.6之间,呈现一个较为明显的“先增后减再增”的波动趋势。这表明科学与技术的研究分布具有一定的区分度,两者的研究关注重点并不完全一致,各自有各自的研究重心。
5科学和技术文本独自聚类分析
科学和技术文本独自聚类分析是分别对23457篇科学文献和23339篇专利技术进行K-Means聚类分析,并且借助科学文献和专利技术同处在一个文本向量空间下这一特点,在语义层分析科学文献和专利技术的聚类群自身和互相之间的相关性,从而探索固态燃料电池的科学和技术两个领域的关系。
5.1文本聚类
5.1.1K值的确定
(1)科学文献聚类k值
科学文献共有21535篇,SSE差值训练曲线如下
图4-1科学文献K-Means的SSE差值图
从上图可以看出肘部点落在index为5的区域,也就是k值在5和6之间存在肘部点,本次实验在科学文献聚类中采用k值为6进行K-Means聚类。
(2)技术专利聚类k值
图4-2技术专利K-Means的SSE差值图
技术专利文本的SSE差值图的肘部点可以参考的位置在index为4的区域,对应的k值分别是4和5,因此技术专利文本的K-Means的聚类个数k值定为5进行训练。
5.1.2聚类标签
(1)科学文献聚类的标签
科学文献6个聚类的词语标签分别如下:
聚类群序号聚类群标签词语聚类领域
Paper_0 system,power,energy,stack,efficiency,performance,fuel,gas关于燃料电池组和燃料电池系统的功率和效能的相关领域分析
Paper_1 cathode,degree,sr(元素),cm,performance,cell,delta,electrochemical,temperature,electrolyte,resistance,material,electrode关于燃料电池负极材料和电解质材料与燃料电化学性能相关领域话题
Paper_2 solid,study,result,catalyst,process,surface,electrode,temperature,cell,reaction,hydrogen关于燃料电池电极催化剂,如析氢反应催化剂等相关领域
Paper_3 delta,sr,oxygen,degree,temperature,cathode,cm,material,phase,electrode,oxide,increase,conductivity关于燃料电池正负极材料与燃料电池氧化作用的相关领域分析
Paper_4 anode,cell,performance,degree,electrolyte,cm关于燃料电池中正极和电解质对于燃料电池性能的影响作用的相关领域话题
Paper_5 conductivity,degree,temperature,electrolyte,phase,cm,property,increase,material关于燃料电池电解质与燃料电池导电性之间的相关领域话题
(2)技术专利聚类的标签
聚类群序号聚类群标签词语聚类领域
Patent_0 material,metal,comprise,catalyst,method,fuel cell,carbon,solution,form,involve关于燃料电池中催化剂的涉及的结构和组成成分的相关领域
Patent_1 polymer,film,fuel cell,electrolyte,form,comprise,electrode,material,surface关于固态聚合物燃料电池和电解质膜的结构和组成材料的相关领域
Patent_2 gas,fuel cell,system,fuel,supply,stack,unit,flow,heat,hydrogen关于燃料电池系统中燃料电池组和气体流动加热供应之间的相关领域(燃料电池本身需要注入加热气体来促进氢电化反应来释放电能)
Patent_3 layer,electrolyte,electrode,fuel cell,form,surface,anode,material,metal,comprise,cathode,cell,porous关于燃料电池中电解质层和电极的孔状结构和组成成分的相关领域
Patent_4 electrode,fuel cell,fuel,electrolyte,air,solid,surface,form,layer,material,cell关于燃料电池中空气电极和固态电解质结构和材料组成的相关领域
5.2描述性分析
5.2.1科学文献聚类的描述性分析
图4-3科学文献文本量分布
从上图可以看到,在科学文献6个不同领域中,科学文献Paper_2聚类含有的文本量远远大于其他领域,其次到Paper_5聚类群,文本量含有最少的则是Paper_1和Paper_3这两个领域,由此也可推断关于固态氧化物燃料电池中的催化剂研究是这20年研究的重点领域。
而Paper_1、paper3、Paper_4和Paper_5对应的都是电极和电解质的结构和材料组成的研究,表明则电极和电解质方向的研究更加细分化,依据电极和电解质种类的区别有不同侧重点研究方向,而相比之下,Paper_2对应的催化剂研究内容则是更为集中,没有出现不同的细分,也由此可以推断,催化剂研究内容自身的可区分度不如电解质和电极结构和材料组成的研究的可区分度。
5.2.2技术专利聚类的描述性分析
图4-4技术专利文本量分布
显然,Patent_0和Patent_2领域的文本量是最多的,远远超过其余的三个技术专利聚类群。Patent_0对应的研究领域是燃料电池中的催化剂设的结构和组成,也由此可以说明在技术专利中,催化剂也是固态氧化物燃料电池极其重要的研究重点。同时,与科学文献相似的是,相对比以催化剂为研究对象,技术专利在电解质和电极方面的研究会更加细分,进行更有可区分度的研究内容,从Patent_1、Patent_3和Patent_4的划分开来讨论不同类型电解质和电极就可以佐证这点。
需要补充一点就是,虽然科学文献和技术专利都是注重于催化剂、电解质和电极三个研究方向,在研究内容分布上具有一定的相似性,与前文的整体领域角度下,“科学和技术的研究分布相似性较低,两者具有较为明显的区分度”这一结论看似有一定冲突性。但是这里涉及到一个关键点,其中科学文献和技术专利关于同一个研究对象(催化剂、电极或电解质)中研究的内容并不一定具有较高地相似性,例如在Paper_4中关注的是电极材料与氧化作用的相关性,而这个在技术专利的聚类中是没有表现出来的,下文的科学文献和技术专利不同聚类群之间的相关性分析也会继续佐证这个观点;而且还考虑到科在科学文献和专利技术混合文本分析下,科学和技术的研究分布也还是有0.4到0.6之间,并不是0.1或0.2这种极其低的相关性,所以混合文本中的研究分布相似性结论依旧是可以成立的。
5.3相关性分析
如前文所提,不同聚类之间的语义相关性分析是通过计算两个聚类的均值向量的余弦值来进行判断两个聚类之间的相关性。
5.3.1科学文献相关性
图4-5科学文献6个不同聚类之间的相关性
可以看出,在六个聚类中,Paper_2与其他领域都是由0.5以上的相关性,可以认为相对比其他领域,Paper_2聚类群与其余聚类的相关性是最广而深的,即科学文献中催化剂相关的研究领域与其他领域的研究相关性较高。
除此之外,Paper_2和Paper_5之间的相关性是最高的,数值为0.67,前者是注重于催化剂,后者是电解质相关领域,这表明这两个领域的研究内容具有一定的相似性;而相关性最低的则是Paper_3和Paper_0,只有0.25,这表明科学文献中燃料电池的电极结构和组成成分研究领域与燃料电池组的功率和效能分析领域的关联性并不强。
5.3.2技术专利相关性
图4-6技术专利5个不同聚类之间的相关性
在专利文本中,相对比其他领域,Patent_0和patent_4与其他领域的相关性是最突出的,都超过了0.5,也由此可以推断在技术专利中,Patent_4代表的燃料电池的电极和电解质研究以及Patent_0代表的催化剂的研究,这两个研究领域与其他领域的关联性是最强的。
Patent_3与Patent_4之间的相关性是最高的,数值为0.57,也就是说在技术专利中,Patent_3和Patent_4两个虽代表不同方向的电极和电解质研究,但两者相似性在专利不同聚类间的相似性是最大的,表明两者在研究内容上具有一定的相似性;而Patent_2和Patent_3之间的相关性是最低的,从聚类标签结果也可以得出这一结论。
对比科学文献的聚类自相关,技术专利的举了自相关的相似度更为均衡,分布在0.38到0.57之间,而科自相关则是会有更大的落差,最小的有0.25,最大的则到0.67。也反映了技术专利的语义距离较为均衡。
5.3.3跨科学和技术相关性
图4-7跨科学文献和技术专利聚类之间的相关性
相比其他的科学文献聚类与技术专利聚类之间较低的相关性,Paper_0与技术专利中的5个聚类都是较为相关的,尤其是Paper_2和Patent_0之间相关性是最高的,两个聚类关注的都是固体氧化物燃料电池的催化剂,这表明科学中的催化剂研究内容和技术中的催化剂研究内容是十分相似的。
但是并不是说只要科学和技术的研究对象相同,那么两者研究内容的相似性就高,注意Paper_3和Patent_3,Paper_3和Patent_4两个相似性,通过聚类标签可以知道,Paper_3、Patent_3和Patent_4的研究对象都涵盖了正负电极,但是相关性分别只有0.23和0.28,非常低,由此也可以判断科学和技术领域关于电极的研究内容还是明显不同的。
而科学和技术关于电解质研究对象的聚类间的相似性会比电极之间的相似性高些许,但最高值也只在0.4左右,显然不如催化剂的相似性高。
所以,从科学和技术不同聚类之间的相关性分析可以看出,在固体氧化物燃料电池领域,以催化剂为研究对象的科学和技术两个领域的研究内容相似性是最高的,达到0.7;而以电解质和电极为研究对象的科学和技术之间的研究内容相似性则明显不如催化剂,尤其是电极,可以看出在科学和技术两个领域,关于固体氧化物燃料电池的电极方向的研究内容是有很大偏差的。
5.4相关性可视化
图4-8科学文献和技术专利聚类二维可视化
将科学文献和技术专利每一个聚类中的每一年的均值向量求解出来,然后将科学文献和技术专利中每个聚类的每年均值向量通过PCA主成分分析法进行降维处理,最终可以得到图4-8。其中图像中蓝色的圈为科学文献聚类,绿色的圈为技术专利聚类;图中的散点为每个聚类每一年的均值向量降维后的展示;散点的颜色代表每个均值向量对应的年份,其中越红代表越靠近1999年,越蓝越靠近2019年。
图4-8主要从两个方面进行观察,一个是每个聚类内部逐年的均值向量的分布密集程度,分布得越密集则代表这21年来该领域的研究越集中,演变较少,反之则演变越激烈;另外一个观察则是判断聚类之间的相关性,通过图4-8中聚类二维平面聚类来直观判断不同聚类之间的研究内容相关性,以及通过对比两个聚类中的同年份均值向量散点的相对距离的变化来判断两个聚类相关性逐年演变情况。
5.4.1密集程度分析
从图4-8中可以看出,在科学和技术两个领域中,Paper_2和Patent_0的研究是最集中的,从1999年到2019年,每年的均值向量的散点并没有出现很大的跨越,这也与前文科学和技术文本的描述性分析得到的结论相一致:在科学和技术领域中,Paper_2和Patent_0代表的固体燃料电池的催化剂的研究方向是较为集中的,21年来也没有出现明显的大变动。
相对比之下,以电极和电解质为研究对象的Paper_1、Paper_3、Patent_3、Patent_4的聚类内部的逐年均值向量分布都是比较散的,表明部分电极和电解质研究方向在这21年间演变还是较多的。
5.4.2聚类相关性
通过观察图4-8中聚类间的距离,不难发现在相对比科学文献中其他聚类,Paper_2和专利中5个聚类都是相对较近的,表明科学文献中的催化剂领域的研究内容与技术专利聚类的研究内容是比较相似的;其中Paper_2和Patent_0之间的距离是最靠近的,由此可推测科学和技术在催化剂的研究内容方向上是十分相似。以上这些推论和前文的科学和技术聚类之间的相关性热力图(图4-7)中得到的结论相一致,表明降维处理后,聚类间的区分数据还是有得到保存。
关注Paper_0和Patent_2两个领域逐年均值向量点相对距离的变化来推测两个聚类的相关性在这21年间的变动:
从图4-8中可以看出,从1999年一直到2019年,同一年份两个领域的逐年均值向量散点的相对距离是明显得到缩短的,由此可以推测在这段时间,Paper_0和Patent_2两个领域的相关性是一个逐渐上升的过程。通过计算原有85维度文本向量空间中Paper_0和Patent_2逐年均值向量的余弦相关性进行验证:
图4-9 Paper_0和Patent_2两个聚类间的逐年相关性分析
从图4-9可以清晰看到两个聚类的相关性从最开始的不到0.5,最后逐渐上升超过了0.7,证实Paper_0和Patent_2研究内容相似性逐年增加,而且从目前的情况来看Paper_0和Patent_2未来的相关性依旧会维持在一个高相关性的区间。
再关注Paper_2和Patent_0两个领域逐年均值向量点相对距离的变化来推测两个聚类的相关性在这21年间的变动:
从图4-8可以看到,从1999到2019,两个领域的逐年均值向量散点的相对距离前后并没有明显的变化,又结合Paper_2和Patent_0距离非常靠近,由此估计Paper_2和Patent_0两个领域在这21年间的相关性是维持在一个较高的范围内。通过计算原有85维度文本向量空间中Paper_2和Patent_0逐年均值向量的余弦相关性进行验证:
图4-10 Paper_2和Patent_0两个聚类间的逐年相关性分析
图4-10的结果证明了Paper_2和Patent_0逐年均值向量的余弦相关性在21年间确实处于一个较为稳定的高相关性区间,表明两个领域的研究内容一直都保持着较高相似性。