为什么要写这本书
到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。Farecast票价预测的准确度已经高达75%,使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元 维克托·迈尔·舍恩伯格.大数据时代-生活、工作与思维的大变革.2012。
Farecast是大数据公司的一个缩影,也代表了当今世界发展的趋势。但与国外相比,我国由于信息化程度不太高,企业内部信息不完整,零售业、银行、保险、证券等对大数据分析与挖掘的应用并不太理想。但随着市场竞争的加剧,各行业对大数据分析与挖掘技术的研究与应用意愿越来越强烈,可以预计,未来几年,各行业的数据分析一定都是大规模的数据挖掘与应用。在大数据时代,数据过剩、人才短缺,数据挖掘专业人才的培养又需要专业知识和职业经验积累。所以,本书在注重大数据时代数据挖掘理论的同时,也注意与大数据项目案例实践相结合,这样可以让读者体验真实的大数据挖掘学习与实践环境,更快、更好地学习大数据分析与挖掘知识以及积累职业经验。
总地来说,随着大数据时代的来临,大数据分析与挖掘技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素,人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析与挖掘技术将帮助企业用户在合理时间内攫取、管理、处理、整理海量数据,为企业经营决策提供积极的帮助。大数据分析与挖掘作为数据存储和挖掘分析的前沿技术,广泛应用于物联网、云计算、移动互联网等战略性新兴产业。虽然大数据目前在国内还处于初级阶段,但是其商业价值已经显现出来,特别是有实践经验的大数据分析人才更是各企业争夺的热门资源。
大数据时代来临,风云变化,时不我待!
本书特色
本书作者从实践出发,结合大量大数据挖掘工程案例及教学经验,以真实案例为主线,深入浅出介绍大数据挖掘项目中针对数据分析的各个流程:数据探索、数据预处理、分类与预测、聚类分析、关联规则挖掘、智能推荐等。因此,图书的编排以解决某个大数据应用的挖掘目标为前提,先介绍案例背景提出挖掘目标,再阐述针对这个目标使用的大数据挖掘分析方法与过程,最后完成模型构建,在介绍建模过程中会针对每个大数据项目的特点进行分析,同时提供上机实验,把相关的建模操作提供给读者。在本书的高级篇中,介绍大数据挖掘的二次开发实例,方便有能力的读者进行相关二次开发。
根据读者对案例的理解,本书配套提供了真实的原始样本数据文件及建模仿真平台,读者可以从“泰迪杯”全国大学生数据挖掘竞赛网站(http://www.tipdm.org/ts/655.jhtml)免费下载。另外,为方便教师授课需要,图书还特意提供了建模阶段的过程数据文件、PPT课件,读者可通过“勘误与支持”中的联系方式咨询或者获取文件。
本书适用对象
开设有大数据挖掘课程的高校教师和学生。
目前国内不少高校将数据挖掘引入本科教学中,在数学、计算机、自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程,但目前这一课程的教学仍然主要限于理论介绍。因为单纯的理论教学过于抽象,学生理解起来往往比较困难,教学效果也不甚理想。本书提供的基于实战案例和建模实践的教学内容,能够使师生充分发挥互动性和创造性,理论联系实际,使师生获得最佳的教学效果。
大数据挖掘开发人员。
这类人员可以在理解大数据挖掘应用需求和设计方案的基础上,结合图书提供的基于第三方接口快速实现大数据挖掘应用的编程。
需求分析及系统设计人员。
这类人员可以在理解数据挖掘原理及建模过程的基础上,结合数据挖掘案例完成精确营销、客户分群、交叉销售、流失分析、客户信用记分、欺诈发现、智能推荐等数据挖掘应用的需求分析和设计。
进行大数据挖掘应用研究的科研人员。
许多科研院所为了更好地对科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据。但是,这些科研业务管理系统一般没有对这些数据进行深入分析,对数据所隐藏的价值并没有进行充分挖掘利用。科研人员需要大数据挖掘建模工具及有关方法论来深挖科研信息的价值,从而提高科研水平。
关注大数据分析的人员。
业务报告和商业智能解决方案对于了解过去和现在的状况可能是非常有用的。但是,数据挖掘的预测分析解决方案还能使这类人员预见未来的发展状况,让他们的机构能够先发制人,而不是处于被动。因为数据挖掘的预测分析解决方案将复杂的统计方法和机器学习技术应用到数据之中,通过预测分析技术来揭示隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式和趋势,从而为决策提供科学依据。
如何阅读本书
本书共16章,分三个部分:基础篇、实战篇、高级篇。基础篇介绍了数据挖掘、Hadoop大数据的基本原理,实战篇通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得大数据项目挖掘分析经验,同时快速领悟看似难懂的大数据分析与挖掘理论知识。读者在阅读过程中,应充分利用随书配套的案例建模数据,借助TipDM-HB大数据挖掘建模平台,通过上机实验,快速理解相关知识与理论。
第一部分是基础篇(第1~6章),第1章的主要内容是数据挖掘概述、大数据餐饮行业应用;第2章针对大数据理论知识进行基础讲解,简明扼要地针对Hadoop安装、原理等做了介绍;第3章介绍了大数据仓库Hive的安装、原理等内容;第4章介绍了大数据数据库HBase的安装、原理等内容;第5章介绍了几种大数据挖掘建模平台,同时重点介绍了本书使用的开源TipDM-HB大数据挖掘平台;第6章介绍数据挖掘的建模过程、各种挖掘建模的常用算法与原理以及挖掘建模在大数据挖掘算法库Mahout中的实现原理。
第二部分是实战篇(第7~14章),重点分析大数据挖掘技术在法律咨询、电子商务、航空、移动通信、互联网、生产制造以及公共服务等行业的应用。在案例结构组织上,按照先介绍案例背景与挖掘目标,再阐述大数据时代针对大数据的分析方法与过程,最后完成模型构建的顺序进行的,详细分析了建模过程关键环节。最后通过上机实践,加深对大数据挖掘案例的认识以及分析流程。
第三部分是高级篇(第15~16章),介绍了基于Hadoop大数据开发的相关技术以及开发步骤,并使用实例来展示这些步骤,使读者可以自己动手实践,亲自体会开发的乐趣;还介绍了基于TipDM-HB大数据挖掘平台的二次开发实例,借助TipDM-HB大数据挖掘平台二次开发工具,可以更加快捷、高效地完成相关大数据应用的二次开发,降低开发难度,使读者更方便地体会到大数据分析与挖掘的强大魅力。
勘误和支持
除封面署名外,参加本书编写工作的还有刘名军、肖刚、云伟标、王路、刘晓勇、薛云、廖晓霞、徐英刚等。由于笔者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。为此,读者可通过笔者微信公众号TipDM(微信号:TipDataMining)、TipDM官网(www.tipdm.com)反馈有关问题。也可通过热线电话(40068-40020)或企业QQ(40068-40020)进行在线咨询或通过扫描以下微信公众号的二维码咨询获取。
读者可以将书中的错误及遇到的任何问题反馈给我们,我们将尽量在线上为读者提供最满意的解答。图书的全部建模数据文件及源程序,可以从全国大学生数据挖掘竞赛网站(www.tipdm.org)下载,我们会将相应内容的更新及时发布更正出来。如果您有更多的宝贵意见,欢迎发送邮件至邮箱
[email protected],期待能够得到您的真挚反馈。
致谢
在本书编写过程中,得到了广大企事业单位科研人员的大力支持!在此谨向中国电力科学研究院、广东电力科学研究院、广西电力科学研究院、华南师范大学、广东工业大学、广东技术师范学院、南京中医药大学、华南理工大学、湖南师范大学、韩山师范学院、中山大学、广州泰迪智能科技有限公司、武汉泰迪智慧科技有限公司等单位给予支持的专家及师生致以深深的谢意。
在本书的编辑和出版过程中还得到了参与“泰迪杯”全国大学生数据挖掘建模竞赛(http://www.tipdm.org)的众多师生及机械工业出版社杨福川、高婧雅等无私的帮助与支持,在此一并表示感谢。
张良均