国际影响力
历任中国计算机学会学术委员会副主任、物联网专业委员会主任、传感器网络专业委员会主任、数据库专业委员会副主任、大数据专家委员会副主任、中国自动化学会大数据专业委员会副主任
ACM SIGMOD China主席、IEEE Transactions on Knowledge and Data Engineering等国际重要学术刊物副主编,50余次担任ICDE等国际一流和重要学术会议的指导委员会主席、大会主席、程序委员会主席等职务
第一位在VLDB等国际顶级会议和期刊发表论文的中国大陆学者,第一位获得国际顶级会议VLDB最佳论文奖的中国大陆学者,第一位在国际顶级学术会议ACM SIGMOD上作大会特邀报告的中国大陆学者,第一位担任ICDE等国际顶级学术会议大会主席的大陆学者,中国第一个微机集群(云计算系统雏形)和基于该系统的并行数据库软件系统的研制者
所获荣誉
国家杰出青年基金获得者,国家973计划项目首席科学家,获得国家科技进步二等奖1项、省部级自然科学一等奖和科技进步一等奖3项、其他奖励10余项,并获得中国计算机学会“王选奖”。他还被评为国家有突出贡献的中青年科学家、国家有突出贡献的归国留学人员,并获得国家五一劳动奖章和国务院政府特殊津贴,先后受到李鹏总理、胡锦涛主席和温家宝总理接见
科研成果
目前正在承担大数据计算的复杂性理论和高效算法方面的国家自然科学基金重大项目课题1项和国家自然科学基金重点项目2项。在大数据计算复杂性理论、大数据算法设计方法、大数据计算问题的高效求解算法、无线传感器网络、数据可用性、图数据计算等方面取得了一系列高水平研究结果,出版学术论著2部,在国内外发表学术论文600余篇,其中在国际顶级学术刊物和顶级学术会议发表学术论文140余篇,被他引2万余次,单篇论文被他引最高2000余次,H-index为62, 多篇论文获得VLDB等国际顶级和重要学术会议最佳论文奖、国家科协优秀期刊论文奖、被纳入美国和英国出版的学术著作、手册以及美国大学计算机研究生课程。
中国第一个微机集群(云计算系统雏形)和基于该系统的并行数据库软件系统的研制者,也是20世纪我国第一个规模化生产并广泛应用的具有自主产权的DJS-100系列计算机大型操作系统的研制者。他还主导完成了中国石油天然气总公司的石油、勘探、开发数据库设计,并建立了石油行业数据库标准。
学术成果
1.建立了大数据计算的复杂性理论,设计了一系列大数据计算问题的亚线性时间求解算法,凝练出大数据算法的设计方法。多年来,在国家自然科学基金重大项目和重点项目资助下,致力于大数据计算的复杂性性理论和高效算法的研究,取得了如下研究结果:
①通过大量实验研究发现,由于计算资源的受限性,多项式时间不再适于作为大数据计算问题的易解性标准,传统计算复杂性理论的根基被动摇;多项式时间算法无法在人们希望的时间内求解大数据计算问题,传统的多项式时间算法不在适于求解大数据计算问题,提出把线性时间作为大数据计算问题的易解性标准,并提出了两个研究问题:以亚线性时间为大数据计算问题易解性标准的大数据计算的复杂性理论;设计求解大数据计算问题的亚线性时间算法。
②针对传统图灵机无法支持亚线性时间计算的问题,提出了随机存取图灵机模型,简称RATM,证明了RATM的许多性质。基于RATM和大数据计算问题易解性的亚线性时间标准,提出了大数据计算问题空间的复杂性分类,分析了各种复杂性类的性质及其相互关系,提出了大数据计算问题之间的归约方法,定义大数据计算问题的完全性,并证明了一些计算问题的完全性,确定了大数据计算问题空间的计算复杂性结构。
③确定了一系列大数据查询、挖掘、分析问题的固有计算复杂性,如大数据的Top-k查询问题、Skyline计算问题、Top-k支配集计算问题、一致性评估问题等,确定了这些问题在亚线性时间内的难解性,并确定了一些亚线性时间难解问题的亚线性时间可近似性。
④研究了求解大数据计算问题的亚线性时间算法设计问题,如大数据的Top-k查询处理问题、Skyline计算问题、Top-k计算问题、Top-k支配集计算问题、一致性评估问题、聚集计算问题、聚类问题等很多问题的亚线性时间求解算法。在研究大数据计算问题的亚线性时间求解算法的同时,凝练出了求解大数据计算问题高效算法的设计方法,如压缩计算方法、(e,d)-随机近似计算方法、基于主数据提取的计算方法、增量式计算方法、适于平均易解问题的实例优化计算方法、适于参数化易解问题的参数化计算方法、基于归约与神谕机的计算方法等。
2.率先设计了计算机机群计算系统,建立了云计算系统雏形,提出基于计算机机群的并行大数据管理系统和计算方法。从1991年起,李建中就开始探索基于计算机机群的大数据并行管理和计算的新途径,1996年研制了我国第一个云计算雏形:微机机群系统,1997年研制了我国第一个基于机群的并行数据管理系统,2001年完成了产品化,2002年列入国家发改委重大产业化专项,在地方税务征收管理系统、工商银行、国家005工程等系统中应用至今,解决了国家重要基础设施的大数据管理与计算问题,获国家科技进步二等奖和省科技进步一等奖各1项,著名国际会议SIGMOD特邀撰写该系统的论文。基于云计算的数据管理与计算方法已经在大数据研究与应用中无处不在。主要创新和贡献如下:
①发现了机群或云计算系统的通信瓶颈问题,在系统并行性最大化目标的基础上,提出节点计算局部化目标,即最小化每个计算节点与其他节点的通信量,提出基于机群或云计算系统的算法设计新模式。
②解决了实现上述两个目标的数据分布式存储问题,率先在国际上提出多维数据存储方法CMD和并行GRID、RT-CAN等分布式索引方法,突破了已有一维方法的局限和集中式索引存储方法的瓶颈问题。
③建立了存储方法与计算融合的理念,提出基于CMD、RT-CAN等方法的并行数据查询处理算法和各种数据操作算法,实现了节点计算局部化和系统并行性最大化。
3.建立了无线传感网网内分布式计算理念,揭示了无线传感网内计算原理,提出感知数据获取和计算的方法,引领和推动了我国和国际无线传感网研究。传感网是物联网的重要基础,其产生的数据称为感知数据,是典型大数据。李建中率先在国内开展感知数据获取与计算的研究,应国家基金委战略研讨会特邀,在会上给出我国第一个无线传感网报告,并发表首篇感知数据计算论文,被他引3000余次,出版首部传感网著作,被他引7900余次,创办了中国传感网学术年会,发起成立计算机学会传感网专委会,历任副主任和主任,推动了我国传感网研究。主要创新如下:
①提出了多模态数据的事件模型,揭示了异质网元信息表达和协同感知原理,提出了支持物理世界重现的感知数据获取、核数据抽取、感知数据压缩获取等理论和算法。
②揭示了无线传感网网内(e, d)-近似计算原理,解决了采样方法选择、数学估计器构造、样本最小化、网内算法设计等四个关键问题,提出了网内(e, d)-近似聚集、网内物理过程曲线查询、物理世界的e-近似、物理过程重建等理论和算法。
③提出了支持网内计算的实时、安全、可靠的数据传输理论和方法以及网络分布式传输调度算法。
4.在国际上开辟了不确定图数据分析研究领域,创建了在不确定性影响下分析大图数据的方法。传统的图数据分析方法几乎只针对确定图数据。李建中课题组通过研究大量图数据后发现,由于数据采集技术固有的随机误差、不及时的数据更新、多源数据集成等原因,大图数据中普遍存在不确定性。忽视不确定性将会导致严重的分析结果误差,甚至出现完全错误的分析结果。为此,李建中带领课题组率先在国际上开展不确定图的研究工作,取得了系列成果,产生了重要国际影响,主要包括:
①建立了不确定图模型,提出不确定图的期望和概率语义,揭示了不确定图与确定图的本质区别。
②证明了不确定图的频繁子图、极大团、代表子图挖掘等问题的NP-完全性或#P-完全性,提出高精度近似求解算法。
③运用压缩和并行计算技术,提出高效子图匹配算法,用于具有10亿顶点的图,有效地解决了超图查询问题。Springer出版的著作详细介绍了该算法。
5.建立了海量数据质量的基础理论,提出了海量数据错误发现和修复的方法,为大数据的质量保障奠定了基础。随着数据量的迅速增长,数据错误也急剧增长。国际上有关数据错误产生的恶果屡见不鲜,成为信息社会的严重问题。李建中在973项目资助下,系统地研究了海量数据质量问题,提出了系统的理论和方法,完成了原型系统,并应用于智慧城市大数据。主要创新如下:
①建立了数据质量的五项指标:一致性、精确性、完整性、时效性、实体同一性,提出了基于一阶逻辑的五项指标的表达机理,确定了可满足问题、蕴含问题等基础问题的计算复杂性和求解算法,完成了有穷公理化,提出了数据正确性规则自动发现和自动推理问题的计算复杂性理论和解算法,为数据质量评估、错误发现与修复奠定了基础。
②建立了数据质量五个指标的数学模型,确定了这五个指标评估问题的计算复杂性和求解算法。
③确定了海量数据一致性、精确性、完整性、时效性、实体同一性错误发现与修复问题的计算复杂性,提出了多项式时间精确、近似、参数化等一整套求解算法。
④建立了弱可用数据上近似计算的研究方向,并提出了一系列弱可用数据上近似计算的理论和方法。
6.理论与实际相结合,研制了一些列软件系统。先后研制了国产DJS-100系列计算机系统的操作系统、计算机集群并行数据库管理系统、计算机集群并行数据仓库和数据挖掘系统、无线传感网数据管理系统、数据可用性管理系统等软硬件系统,并得到管饭应用。