何为数据挖掘和商业智能? 与数据挖掘相关的词汇有例如数据仓库,数据装载(ETL),数据挖掘(Data Mining),客户关系管理(CRM),SAS,PeopleSoft, SAP等。到上个世纪九十年代,以数据存储为目的的联机分析处理系统(OLTP)已经发展得相当成熟,关系型数据库的应用已经非常普及,大型企业或部门积累了大量原始数据。这些数据是按照关系型结构存储,在更新,删除,有效存储(少冗余数据)方面表现出色,但在复杂查询方面效率却十分低下。为充分利用已有数据,提供复杂查询,提供更好的决策支持,出现了数据仓库(Data Warehouse)。数据仓库与数据库(这里的数据库指关系型数据库)的区别在于,数据仓库以方便查询(称为主题)为目的,打破关系型数据库理论中标准泛式的约束,将数据库的数据重新组织和整理,为查询,报表,联机分析等提供数据支持。数据仓库建立起来后,定期的数据装载(ETL)成为数据仓库系统一个主要的日常工作。 在数据仓库发展的同时,一项从大量数据中发现隐含知识的技术也在学术领域兴起,这就是数据挖掘。数据挖掘也称为数据库知识发现(Knowledge Discovery in Databases, KDD),就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识)。最初的数据挖掘应用一般需要从组织数据做起,经历算法设计(建模),挖掘,评价,改进等步骤。其中组织整理数据占据大部分时间,大约占到整个数据挖掘项目80%的时间。数据挖掘的真正普及是建立在数据仓库的成功应用之上。一个设计完善的数据仓库已经将原始数据经过了整理和变换,在此基础上再进行深入挖掘就是顺理成章的事情。 数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术。传统的交易型系统,九十年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下,产生了大量的数据。但与之相配合的数据分析和知识提取技术在相当长一段时间里没有大的进展,使得存储的大量原始数据没有被充分利用,转化成指导生产的“知识”,形成“数据的海洋,知识的荒漠”这样一种奇怪的现象。 数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到各个领域的重视。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。当前数据挖掘应用主要集中在电信(客户分析),零售(销售预测),农业(行业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),化工,医药等方面。当前它能解决的问题典型在于:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等,在许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店(www.amazon.com),会发现当你选中一本书后,会出现相关的推荐数目“Customers who bought this book also bought”,这背后就是数据挖掘技术在发挥作用。 提到数据挖掘,就不能不提商业智能(Business Intelligence),简称BI,就是将智能计算技术应用于传统商业领域,从而提高数据分析能力,优化业务过程,提高企业竞争力。虽然商业智能的普及仅仅是最近几年的事情,但已经渗透到金融,电信,零售,医药,制造,政府等各个行业和领域,成为大中型企业经营决策的重要组成部分。 数据挖掘是一项技术,由许许多多的算法构成,如决策树,聚类,关联算法,分类算法,神经网络等,这些算法可以有多种实现方式。数据挖掘渗透到某些行业,产生了一些特定的应用,比如现在经常会听到的客户关系管理(Customer Relationship Management, CRM)。客户关系管理的概念由来已久,但现代的客户关系管理一般指以客户数据为处理对象的一类商业智能应用。通过挖掘客户信息,发现潜在的消费趋势或动向。比如电信公司通过分析用户通话模式(通话时间,时段,通话量等),制订不同的计费方案,满足用户的同时也提高自己的利润。 据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的用户采用,使更多的管理者得到更多的商务智能。
数据挖掘和商业智能职业发展前景
规划个人职业发展的时候,在众多考虑因素中有两个是非常重要的:所要投入的技术所处的发展阶段和能否结合已有专业知识。 每种技术从提出到广泛应用(或失败被抛弃)有一定的发展周期,称为科学技术的生命周期(Technological life cycle)。该周期大致分为创新(Innovators),早期成长(Early adopters),分歧点(Chasm),早期流行(Early majority),晚期流行(Late majority)和衰退阶段(Laggards)。对于应用型技术人员来说,早期流行阶段是进入一个新技术领域的最佳时机,因为该技术已经通过分歧点的考验,又处于上升阶段,风险最小,竞争最少,更容易脱颖而出。数据挖掘技术现在就处在这样一个早期流行阶段。 数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反复的过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business First, technique second”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数据挖掘的一大优势。如有销售,财务,机械,制造,call center等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色转变。Gartner在2000年的报告中列举了在3-5年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。同时,这份报告将并行计算机体系结构研究和KDD列入今后5年内公司应该投资的10个新技术领域:宽带、无线、Linux、内容管理、实时分析、数据挖掘、安全、中间件、认证技能、商业智能以及知识管理。 根据IDC(International Data Corporation)预测说2004年估计BI行业市场在140亿美元。美国Palo Alto 管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示,在金融领域,商务智能技术的应用水平已经达到或接近70%,在营销领域也达到50%,并且在未来的3年中,各个应用领域对该技术的采纳水平都将提高约50%。现在,许多企业都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,借此获得巨额的回报。