近日,信息工程学院徐森博士的一篇题为“解决文本聚类集成问题的两个谱算法”的论文入选2014年度“领跑者5000——中国精品科技期刊顶尖学术论文(f5000)”。
该篇论文发表在2009年的《自动化学报》(第35卷第7期)上,论文首先引入基于相似度矩阵的谱聚类算法解决文本聚类集成问题,通过代数变换将大规模相似度矩阵的特征值分解问题转化为等价的奇异值分解问题,并继续转化为规模更小的矩阵的特征值分解问题,降低谱聚类算法计算复杂度;然后进一步研究谱聚类算法的关键思想,根据谱聚类算法得到超边的“最佳”低维嵌入,进而根据文本-超边的一一对应关系间接得到文本的低维嵌入,最后在低维空间进行聚类。论文提出的“集成+谱”同样可以用于解决其它应用领域的聚类问题,前提条件是对于不同领域的不同数据,基聚类器必须能够发现有意义的簇,而“集成+谱”的方法是具有普适性的,且论文提出的“代数变换”及“间接求解”方法使得其适用于大规模应用。
f5000是由国家科技部中国科学技术信息研究所于2012年12月组织建设的领跑者5000——中国精品科技期刊顶尖学术论文平台。f5000是为了促进中文科技期刊进入国际重要检索系统,将中国优秀论文推向国际学术界而设立的奖项。今后,我国国内的优秀期刊科技论文,特别是以中文写作的论文,将会被推向国际科技大舞台,让更多的人了解中国科技。
相关背景:
英语是当前世界科学交流的主要语言,非英语科技期刊很难进入国际重要检索系统。2012年我国仅有135种科技期刊进入sci检索系统,其中中文版只有17种。由于存在首发权的问题,曾经发生过个别国际期刊人为拖延我国科研人员发表论文。中信所于2012年12月启动了f5000项目,以推动中国科技期刊整体学术水平的提升,向世界推介我国的优秀科研成果,增强我国的学术影响力和国际竞争力。
f5000论文选自经过严格定量和定性指标评价而产生的300余种“中国精品科技期刊”,最初遴选出各学科影响力较高的5000篇左右科技论文,从2013年起每年补充一批新遴选出的论文。对于遴选出的论文,由作者补充中英文长摘要,对其进行主题分类、图表加工、作者信息等深度标引,形成一个个性化服务平台,其功能包括数据检索,长文摘浏览查阅等。
该平台基于《中国科技论文与引文数据库(cstpcd)》,以5年为滚动周期,针对各个学科类别每个年度发表的论文,按前1%高被引论文进入提名优秀论文,再利用科学计量学的理论和定量分析方法,对每篇提名优秀论文进行学术质量和影响力的客观评价,从而选定最终进入该平台的论文。据统计,2009—2013年累计被引用次数达到其所在学科领域和发表年度基准线以上的论文有近2万篇。其中通过定量分析方式获得精品期刊顶尖论文提名的论文只有3592篇。
文字:陈荣
来源:盐城工学院官方网站
编辑:奚星月