您的位置: 网界网 > 网络学院-数据中心 > 正文

揭秘中国数据库研究鲜为人知的那些事

2015年03月04日 11:21:58 | 作者:佚名 | 来源:IT168 | 查看本文手机版

摘要:近日,中国数据库技术大会会务组宣布,将与中国计算机学会数据库专委会(CCF-TCDB)合作,在2015年第六届中国数据库技术大会上首次开设学术前沿专场,本届大会将不仅关注国内数据库技术的行业应用与技术实战,也将关注国内最新的...

标签
数据库

导语:本期访谈嘉宾孟小峰博士,中国人民大学信息学院教授,博士生导师。现为中国计算机学会会士、常务理事、中国计算机学会数据库专委会秘书长,主持或参加过二十多项国家科技攻关项目、国家自然科学基金以及国家863项目,获电子部科技进步特等奖(1996),北京市科技进步二等奖(1998,2001),中国计算机学会“王选奖”一等奖(2009),北京市科学技术奖二等奖(2012)等奖励,近年在国内外杂志及国际会议上发表论文200多篇,获国家发明专利授权12项。主要研究领域为网络与移动数据管理,包括Web数据管理,XML数据管理,移动对象数据管理,云数据管理,隐私保护,面向新硬件的数据管理。出版了数据管理“三部曲”(《Web数据管理:概念与技术》、《XML数据管理:概念与技术》、《移动数据管理:概念与技术》)。先后参与和主持开发了国产数据库系统COBASE(1991-1998)、并行数据库系统PBase(1996-1999)、嵌入数据库系统“小金灵”(1998-2002)、中文自然语言查询系统NChiql(1996-2000)、纯XML数据库系统OrientX(2002-2008)、学术空间系统ScholarSpace等(2007-)。

近日,中国数据库技术大会会务组宣布,将与中国计算机学会数据库专委会(CCF-TCDB)合作,在2015年第六届中国数据库技术大会上首次开设学术前沿专场,本届大会将不仅关注国内数据库技术的行业应用与技术实战,也将关注国内最新的数据库学术研究成果及世界先进数据库技术的动态,这是国内其它数据库商业会议从未有过的。针对此次合作,老鱼在第一时间专访了中国计算机学会数据库专委会秘书长孟小峰教授。

与孟小峰教授会面约在2月4日上午10:30,地点在中国人民大学理工配楼103A的办公室里。这个时候学校已经放假,学生们大都已离校回家过年,往日喧嚣的校园则显得有些冷清,孟小峰却相当享受这种安静的环境,可以手捧着一本厚厚的大部头书《事务处理》尽情的阅读和思考,而不必担心受到任何打扰。在2个小时的专访过程中,孟小峰随和且健谈,但言谈间又不失学者那种严谨,语速不快,每一字一句显然都是经过深思熟虑,不过孟小峰却并不回避问题,在谈到数据库专委的故事与大数据[注]话题时,话匣子一下就打开了。

揭秘中国数据库研究鲜为人知的那些事

▲中国计算机学会数据库专委会秘书长孟小峰

“浅浅的知识比无知更使人栗六不安,深深的知识使人安定,我们无非是落在这一片深深浅浅之中”。木心的语言总是那么平静而深邃。这是孟小峰在2014年WAMDM实验室年报开篇序言的第一段。学者以知识为本位,一个真正的学者对知识应保持着敬畏之心,而孟小峰正是这样的一个人,作为一个多年从事数据库研究的学者,孟小峰身上所体现的科研态度、创新意识、社会责任发人深省。

对数据库专委的成绩,中国计算机学会理事长、清华大学郑纬民教授是这样评价的:“全国数据库学术会议一直是中国计算机学会中办的规模最大、参会人数最多、组织最为规范、影响最为广泛的活动之一,为中国数据库事业的发展做出重要贡献。”

面对这样高度的褒奖,孟小峰既自豪又感概!感概中不难感受到他对数据库专委老一辈学者的感激与敬佩之情!他表示,中国数据库学术研究的兴起有两个重要阶段,70年代刚刚起步,90年代才有了真正的学术繁荣,数据库在那个年代作为小字辈的学科,在一穷二白的艰苦条件下,正是由于老一辈学者们对于事业无比的执着,才能把中国数据库学术会议(NDBC)32届连续不断的办下来,这是十分不易的事情。

孟小峰特别强调萨师煊、周龙骧、罗晓沛、施伯乐等老一辈学者的名字,是数据库乃至整个学术界都值得记住并尊敬的人,正是他们为我国数据库学科的人才培养和技术发展作出了开创性的贡献。

对于我国数据库学术研究水平与应用水平极不平衡的现状,大众槽点集中的数据库产业化等问题,孟小峰则显得颇为无奈!他表示,从数据库学术研究水平看,我们在数据库国际顶级学术会议上发表论文已经形成系统、规模与国际水平接轨。但在应用上则是一个软肋!这不可回避,也做过反省研讨,我们甚至不如韩国,当然这其中有我们自身的问题,也有历史的因素。孟小峰接着表示,我们这一辈人由于历史的局限性,这个问题只能交由未来年轻一代来解决。

针对当下普遍热衷于用开源代码修改直接使用,孟小峰也发表了自己的看法,孟小峰认为其有利有弊,由于当下流行的开源软件多不是由我们原创的,因此某种程度上它抑制了我们真正掌握核心技术和创新的能力,主动权其实还是掌握在欧美手中。

而在谈到与中国数据库技术大会(DTCC)结缘,孟小峰表示,产业界不能站在更高的角度来看问题,就无法看清问题的深度,更无法引领趋势和未来。没有对于事物本质的理解,就会在内心产生一种不安。能够参与2015年第六届中国数据技术大会,真的是一件很好的事,也给了我们研究的动力,这是一个具有很强互补性的合作交流,有助于将研究和实践有机结合。国外学术界和产业界的交流比国内有优势,学者和业界人员基本可以“无缝链接”,他们的沟通没有障碍,学术成果可以很快为业界人员吸纳和转化,这与国外业界普遍水平较高有关,学界的最新研究成果和动态他们同样了如指掌。

以下来自老鱼对中国计算机学会数据库专委会秘书长孟小峰教授的采访实录。

老鱼(Q1) :您好,孟小峰秘书长。很高兴有机会采访到您。中国计算机学会数据库专业委员会是1999年于兰州成立,这些年数据库专委会都做了哪些工作?取得了什么样的成绩?

孟小峰:我们国家数据库研究始于70年代。1977年老一辈的学者在安徽黄山会议上,在中国计算机学会软件专业委员会下成立了数据库学组。专门致力于教学、科研等等。以萨师煊教授为领头人,编写了一批有代表性的教材,学术界出现了培养数据库人才的繁荣景象。引领了一个时期数据库研究教学的兴起。到1999年,数据库学组由三级组织升级为二级组织叫做数据库专委会。最近我们在学会组织的每年一度的评估报告中,将专委的发展归结为如下的三个阶段:初创时期(1977-学组)夯实基础;成长时期(1999-专委)快速发展;成熟时期(2009-)质量提升。这是数据库几代人努力的结果,特别是创始的老一辈学者凭借“团结、执着、潇洒”的精神铸就了当下的数据库伟业。

数据库专委会的工作职责有3点:学术交流,人才培养,政府咨询。

数据库专委会从1977年到2014年间,已经连续举办了31届中国数据库学术会议,今年是第32届,从会议届数来看,至少据我所知,没有一个学术会议的届数能够超过于此。这是老一辈学者持之以恒所创立的学术氛围,面对困难能不屈不挠、坚韧不拔的意志和精神,这是数据库专委最大的财富。

对数据库专委的评价,中国计算机学会副理事长、清华大学郑纬民教授指出,全国数据库学术会议一直是中国计算机学会中办的规模最大、参会人数最多、组织最为规范、影响最为广泛的活动之一,为中国数据库事业的发展做出重要贡献。他同时指出,数据库专委近年做到了持续不断地在国际顶级数据库会议上发表论文,整体研究水平不断提升,为我国数据库的发展做出重要贡献。数据库专委也连续6次被评为中国计算机学会优秀专委。

中国计算机学会数据库专委会上届主任、中国工程院院士、北京大学何新贵教授将数据库专委的使命总结为二十字真言:“团结同行、交流学术、发展学科、培养人才、服务国家”。数据库专委将以此为办会宗旨,继承萨师煊老师的遗志,继续把数据库事业推向新的高度。

老鱼(Q2) :数据库专委会能取得这些不俗的成绩,如三十多届会议连续办下来,坚持下来,您认为有哪些经验值得总结?今后的工作重点是什么?

孟小峰:数据库专委会能有今天的成绩,这与老一辈学者打开良好的局面是分不开的,正是因为老前辈们所创立的良好学术氛围和坚韧不拔的意志传承,才推动了几代学者把这项事业做到现在,有了今天的成就。

数据库学术研究兴于70年代,90年代有了真正的大发展,数据库当时作为小字辈的学科,正是由于老前辈们对于事业的无比执着,才能把会议连续几十届的办下来,这是十分不易的。我国数据库的发展得益于始于90年代初的国家八五科技攻关项目国产数据库系统COBASE的研发,它从根本上使我国科研人员掌握了数据库系统的核心技术,锻炼了队伍,为我国数据库的发展打下坚实的基础。

全国数据库会议(NDBC)与世界顶级数据库学术会议VLDB(VLDB会议是国际上著名的数据库学学术会议,素有数据库理论与技术研究“风向标”、“数据库界的奥林匹克”之称,是数据库管理领域最杰出的研究和发展成果的实时传播场所)也不差几届,他们是1975年举办首届到现在也是三十多届。

2015年数据库专委的工作重点概括起来是“两会一刊”,两会一指提高全国数据库会议(NDBC)的学术质量,加强分组报告的质量,进一步扩大影响力;二指积极拓展和工业界的合作,以指导单位参与2015中国数据库技术大会(DTCC);一刊则拟创办专委会主办的国际刊物,刊物宗旨为大数据惯例的新理论、新方法、新技术,出版方式拟由Springer出版Data Science and Engineering(DSE),出版计划为每年4期。

老鱼(Q3) :在过去的几十年中,中国数据库领域的研究和应用从无到有发展壮大起来,您认为我们国家数据库技术学术研究与应用分别处于一个什么样的水平?有哪些优势和不足?

孟小峰:从学术研究上讲,我们在国际(数据库)顶级学术会议上发表论文,已经成系统、成规模的态势,与国际水平基本接轨。中国学者在数据库三大会议的发文持续增长,已可以排在第二位。

但在应用上则是我们的一个软肋!我们国家对数据库系非常重视,在 “八五”、“九五”期间,国家科技攻关计划设立了科技攻关课题“国产系统软件开发”,而“数据库管理系统开发”是该课题的一个专题。专题的攻关目标是开发具有自主版权的关系数据库管理系统,该数据库管理系统称为“COBASE”。

“COBASE”是用C语言编写的,源代码约20万行,每一行源代码都是我们自己编写的。虽然“COBASE”获得了电子工业部科技进步特等奖(1996年),国家科技进步二等奖(1998年),但产品化和产业化是个严重的问题,是个迫切需要解决的难题。

当然这有我们自身的问题,这不可回避,也做了探讨和努力。当下普遍热衷于用开源代码修改直接使用,其有利有弊。由于当下流行的开源软件多不是由我们原创的,因此某种程度上它抑制了我们真正掌握核心技术和创新的能力,主动权其实还是掌握在欧美等国手里。

让我们惊讶的是,在去年2014年中韩数据库技术论坛上,我们发现韩国竟然有不下十家,乃至几十家的数据库厂商,这些厂商之间形成了产业联盟,这完全不是政府主导的。他们的协会为厂家尽可能提供力所能及的帮助,形成良性机制。相比来说,我们从提出国产系统,到2002年国家发文18号文件,政府做了大量工作(+本站微信networkworldweixin),但是对于产业来说,竟然比不上韩国,这值得我们深思。

中国的未来由你们这代或者更后面的人来完成。最近我看了一条微信(刘睿民:数据库战国时代,我不跟你们玩政治)非常震惊。这样的年轻人有这样的抱负,我们应当给与道义上的支持。我觉得年轻人就是该有闯劲,他是一个代表,有着在国际公司工作的经验。只要能真正创造出属于我们自己的数据库产品,我觉得也不能用(非)国产的概念来狭隘地定义。不能简单的说技术无国界,美国将我们的华为拒之门外,是完全没有道理的,有悖于他们自己的价值理念。但就其根本,还是因为我们自身的技术不够强大。为什么美国拒绝华为?他们有其它的选择,也为了保护思科。但假设我们拥有超越思科的技术,对方是没有可能拒绝我们的产品的。

老鱼(Q4) :如今大数据热火朝天,您对大数据怎么看?

孟小峰:已故的图灵奖得主Jim Gray在其《事务处理》一书中提到:6000年以前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况。随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文、古埃及纸莎草纸、羊皮纸等。19世纪后期,打孔卡片出现,用于1890年美国人口普查,用卡片取代土块,使得系统可以每秒查找或更新一个“土块”(卡片)。可见,用数据记录社会由来已久,而数据的多少和系统的能力是与当时的社会结构的复杂程度和生产力水平密切相关的。

随着人类进入21世纪,尤其是互联网和移动互联网技术的发展,使得人与人之间的联系日益密切,社会结构日趋复杂,生产力水平得到极大提升,人类创造性活力得到充分释放,与之相应的数据规模和处理系统发生了巨大改变,从而催涌了当下众人热议的大数据局面。

从数据库到数据管理积累这么多年,形成了完善的理论、方法、系统。大数据对我们而言不是神兵天降,它是历史发展的必然,根本的一点是数据的产生方式发生了变化,即由过去的被动产生、主动产生到自动产生,应用的需求发生了巨大的变化,急需新的数据管理技术应对这一局面。

老鱼(Q5) :以往我们很少看到学会在商业会议上以学术专场的形式露面,为什么这次会选择与数据库技术大会合作开设学术专场?是基于一种什么样的考虑?

孟小峰:有时候一心搞开发,没有站在更高的角度来看问题,就无法看到问题真正的深度,没有对于事物本质的理解,就会在内心产生一种不安。

过去30年,数据库专委在学术方面认真耕耘,我们的NDBC会议内容非常丰富,包括研究生学术辅导报告、大会报告、专题报告、新进展报告、企业新技术报告、分组报告以及系统演示等。

但学术研究不能建立在空谈和虚妄的需求之上,需要产学研相结合,从企业或市场汲取营养,同时展示新的研究成果。

我们看到数据库技术大会已办了六届,规模越来越大,国内数据库有如此庞大的开发队伍,感到十分惊喜。数据库专委前主任王珊老师也多次到会指导,因此,这次能够参与数据库技术大会,真的是很好的事,专委应该致力于中国数据库应用水平的提高。这是一个有着很强互补性的交流,能够将学术研究和应用实践有机结合,促进我国数据库事业的发展。

老鱼(Q6) :您能否为我们参会者提前透露下,这次数据库专委会在2015中国数据库技术大会(DTCC)上开设的学术专场将会有哪些嘉宾到场,演讲嘉宾及演讲主题都是什么呢?

孟小峰:面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的数据库技术侧重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。大数据管理是要综合考虑数据的“广度”、“深度”、“密度”等问题,主要解决数据的获取、抽取、集成、复杂分析、解释等技术难点。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。

我们会分享关于大数据管理的理解与经验,希望能在理论、系统、新的架构下来展示新的研究成果,进而提供一些对当下大数据的理解与思考。我们将邀请学有专长、年富力强的专委委员到会与大家交流。我相信来自专委的学术前沿报告会在DTCC大会上会引起关注。

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]