图书前言

数据能够有效地反映数据之间普遍存在的联系,具有丰富的表达力,在Web、社会网络、生物和化学数据库等领域获得了广泛的应用。随着数据获取方式的多样化,图数据规模越来越大,应用也日趋复杂,传统的集中式图查询处理和分析挖掘方法满足不了日益增长的功能和性能上的需求。特别是近年来随着云计算和大数据等概念的兴起,分布式图处理计算也随之得到快速的发展,成为热点的研究领域。本专著系统综述了目前该领域的主要研究进展,并总结和整理了作者近年来在这方面的研究成果,内容囊括大规模图数据分布式处理的主要模型、技术和系统,包括执行机制、数据组织、代表性算法,以及系统实现和典型应用等各个方面。本书试图为读者系统地展现大数据技术高速发展和变革时代大图处理区别于传统数据管理和分布式计算的新技术、新思想、新系统和新挑战。

本书共分为10章,第1章主要介绍大规模图数据分布式处理的研究背景和问题;第2章介绍分布式图计算模型和执行机制;第3章和第4章分别介绍基础的数据组织问题,包括数据的划分以及存储和索引;第5章到第9章介绍代表性的大图复杂查询、分析和挖掘算法及其分布式实现技术,包括三角形查询、最大k边连通子图查询、最小生成树搜索、频繁子图挖掘和重叠社区发现;第10章对现有的主要分布式大图处理系统和典型应用进行综述。

本书涉及的研究课题得到国家重点基础研究发展计划(“973计划”)项目(No. 2012CB316201)、国家自然科学基金项目(61472071、61272179、61433008)、教育部中国移动科研基金项目(MCM20125021)等资助。

作者指导的部分研究生参与了本书的撰写和相关课题的研发,他们是王志刚、刘金鹏、王文安、杨佳学、张天明、张楠、毕亚辉等,他们为本书付出了辛勤的劳动,在此一并表示衷心的感谢。

该专著主要作为从事图数据管理、分布式计算和大数据分析等相关领域研究开发和管理人员的参考书籍,也可作为高校计算机和大数据等相关专业研究生的补充教材和参考读物。

由于著者水平所限,而本书涉及很多新的技术,因此书中难免有疏漏和错误,恳请读者提出宝贵意见。

作者

2015年5月7日