首 页 | 资讯中心 | 产品中心 | 行情中心 | 报价中心 | 商家中心 | 评测中心 | 下载中心 | 搜索中心 | 人才中心 | 娱乐中心 | 数字家庭 | 信息化 | 三好汽车 | 论 坛
手 机 | 笔 记 本 | MP3/MP4 | DC/DV  | 品 牌 机 | 核心配件 | 主 板  | 显 卡  | 显 示 器 | 周边配件 | 办公外设 | 网络设备 | 服务器 | 三好电视 | 蓝 牙
当前位置:信息化专栏 > CIO观潮
数据挖掘的认识误区 CRISP-DM的方法论
2008年01月09日 13时03分 作者:CHINABI 编辑: 且休

 

对于普通人来说,数据挖掘可能是一个神秘的过程。没有经验的企业实施数据挖掘项目时,错误的认识往往成为项目成功开展的重要障碍。因此及时矫正这些错误的认识也成为项目实施前一个重要的任务。

数据挖掘的所有内容是关于算法?

?一谈到算法就会想到通过历史数据建立模型,数据挖掘算法是创建挖掘模型的机制,对产生的最终挖掘输出结果有很大的决定性。随着数据挖掘新技术的层出不穷和商业数据挖掘产品的成熟与完善。对同一商业问题,通常在产品中有多种算法可供选择,而为特定的任务选择正确的算法很有挑战性。?

您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果。而且算法可以进行复合使用,在一个数据挖掘解决方案中可以使用一些算法来探析数据,而使用其他算法基于该数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。??

  也可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮子分析。?

  由此看出在数据挖掘项目中,在明确挖掘目标和了解各种算法特点后,如何正确选择使用算法,得到期望的结果才是关键环节。?

  在数据挖掘项目实施的过程中,业界有一个公认的方法论CRISP-DM(Cross?Industry?Standard?Process?for?Data?Ming,跨行业数据挖掘标准流程),从名称上可以看到,此模型的定义比较通用,能够应用于不同的行业解决业务问题。?

  CRISP-DM流程模型包括了六个步骤,涵盖了数据挖掘的整个过程,它们是:商业理解、数据理解、数据准备、建立模型、模型评估、模型部署。?

  在这六个步骤中,应用数据挖掘算法的过程主要集中在建立模型阶段,很显然算法不是数据挖掘的所有内容。建模所使用的数据准备得如何,很大程度上决定了数据挖掘项目的成败。?

  因此,在一个成功的数据挖掘项目中,60%-80%的时间都是集中在商业理解、数据理解、数据准备阶段。此外,在数据挖掘项目中,特别强调数据挖掘算法和实际业务的紧密结合,否则数据挖掘很可能会出现“垃圾进,垃圾出”(garbage?in?garbage?out)的现象。?

  数据挖掘项目中,检验模型的唯一标准是预测精确度?

  模型的预测精确度是检验模型好坏的一个重要指标,但不是唯一指标。一个良好的数据挖掘模型,在投入实际应用前,需要经过多方面的评估,从而确定它完全地达到了商业目标。评估数据挖掘模型优劣的指标有许多,比如精确度、LIFT、ROC、Gain图等。?

  精确度是最基本和最简单的指标。但是要让用户接受一个模型的结果,仅靠这些评估指标却是不够的,还需要从模型结果的可用性上进一步阐述,即数据挖掘模型到底能带来什么业务上的价值。这实际上也就是数据挖掘模型的可解释性。在实际数据挖掘项目中,模型的可解释性往往比评估指标更为重要。?

  在对模型进行评估时,既要参照评估标准,同时也要考虑到商业目标和商业成功的标准。片面的追求预测正确率就会忽视了数据挖掘的初衷。我们不是为了建立一个完美的数学模型而进行挖掘,而是为了解决实际商业问题。所以挖掘产生结果的可解释性与实用性,才是最根本的标准。例如在解决客户流失问题中,预测模型捕捉越多的流失客户,不一定就代表能够协助挽留较多的客户。关键在于预测结果对挽留营销活动的制定有多大的帮助。?

  数据挖掘一定需要数据仓库?

  从定义上讲,数据挖掘(Data?Mining),又称为数据库中的知识发现(Knowledge?Discovery?in?Database,?KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。?

  良好的数据源是数据挖掘成功的重要保证,所以说数据挖掘需要有自己的数据集市,因为通常数据仓库主要是为决策支持系统而建立的,数据在ETL过程中会有可能损失一些对数据挖掘有用的信息。?

  特别是在数据规约阶段,针对数据集进行匹配,发现重复异常,根据匹配结果进行处理,删除部分记录或者将多个记录合并为一个更完整信息的记录的过程,对数据挖掘来讲很可能是隐含信息丢失的过程。重复的记录对决策支持系统可能没有用处,但对数据挖掘来讲可能是挖掘出隐含模式的重要来源。?

  数据挖掘应由技术专家来完成?

  数据挖掘作为利用企业大量数据发现规律规则并在企业经营活动中应用从而产生商业价值的一个商业应用过程,是由多方面的要素构成的。?

  其中,非常重要的一部分就是要有高素质的数据挖掘人员,这些人员包括:了解数据的人,例如数据库管理员,对数据的存储位置非常清楚;了解业务的人,能够及时提出问题,并协助分析员把商业问题转化称为数据挖掘问题,理解数据挖掘结果,并能够把数据挖掘结果转化为企业的实际商业行动创造价值;分析人员,需要了解数据挖掘的算法和功能,熟练使用相关数据挖掘软件产品,能够和业务人员一起把商业问题转化为数据挖掘问题并解决数据挖掘问题。?

  因此,成功的数据挖掘项目是由业务专家和技术专家共同完成的。优秀的数据挖掘工具应该有利于业务专家也参与到数据挖掘项目中。只有将业务知识融入到数据挖掘项目中,才能使数据挖掘的结果真正为商业应用服务。?

  需要海量的数据?

  在数据挖掘过程中,最初设定的商业目标很容易淹没在海量数据中,在项目进行中,应始终明确需解决的商业问题,确保项目结果的最终完成。如果你只是在没有项目计划的情况下简单的开始分析一堆数据,将会很容易迷失在数据里而且浪费时间。?

  不要让项目被大量数据单纯驱动,集中精力在商业目标上。你可能不需要使用系统中的所有数据,仅仅使用和项目相关的数据就可以了。?

  确保数据挖掘项目的成功实施?

  纠正了认识的误区,那我们接下来该如何实施呢?前文提到的CRISP-DM方法论是一个很好的方法。?

  以终为始?

  为了能在项目终结时得到期望的ROI,你应该在项目启动前已经确定了如何评估最终的结果的标准(例如:使用什么样的商业考核指标,它们是被如何计算或派生的)。?

  设定期望值?

  确保项目投资者明白数据挖掘不是解决商业问题的魔术棒。数据挖掘是借助计算机技术辅助解决商业问题的一种方法。就像任何商业问题,投资者需要首先提出可解决的问题,然后找寻方案。?

  例如你计划为公司市场部做客户细分,那么应该与市场部的同事一起明确什么样的结果是最终希望得到的,例如:“我们使用产品信息和人口统计数据,所以希望得到基于客户的收入、年龄等信息的细分,这样能显示不同层次客户对产品的喜好”。?

  限定最初的项目范围?

  以现实可行的目标和日程表为开始,当你获得成功后,再转向更复杂的项目。例如与其试图立刻提高新客户的获取值,还不是集中精力在小的更实际的目标如对某一区域进行交叉销售,客户保留项目。?

  确保团队合作?

  数据挖掘项目是一个团队工作。数据挖掘需要商业使用者理解实际问题和数据,也需要数据分析家提供分析解决方案,以及数据库管理者提供权限。而他们往往来自不同的部门,有着不同的利益诉求,所以找到可行的合作方式是很重要的。?

  避免陷入数据垃圾?

  在项目进行中,始终明确需要解决的商业问题,确保项目结果的最终完成。如果你只是在没有项目计划的情况下简单的开始分析一堆数据,你将会很容易迷失在数据里而且浪费时间。不要让项目被大量数据单纯驱动,集中精力在商业目标上。你可能不需要使用系统中的所有数据,仅仅使用和项目相关的数据就可以了。你甚至可能会发现现有的数据不能足以解决现实的商业问题。即使海量数据也不能保证你就拥有准确的用于建模的数据.例如,使用最新的信息进行预测客户行为往往比用大量的历史数据准确。??

  相关报道:

  管理和存储信息数据 互联网酝酿最大商机

  数据膨胀 企业的存储系统正面临信息超载

  如何寻找数据价值 BI系统是可行解决办法




  CIO观潮文章
>> 令人焦头烂额的IT分配 CIO应该如何应对
>> 数据挖掘的认识误区 CRISP-DM的方法论
>> 几大指标让商业智能(BI)的绩效越来越高
>> 盖茨CES大会预测人机互动将发生重大变化
>> 盖茨:软件才是重点 DVD格式大战保持中立
>> 惠普首席技术顾问展望2008年IT六大热点
>> 2008年度IT业界最值得关注的几种商业模式
>> 节能无所不在 减少IT部门电费的10种办法
精品稿件综述
>> 768M巨兽怒吼 盈通G8800GS-768GD3到货
>> 自由百搭!明基La Vie迎合"M型社会"理念
>> 喜迎奥运年!诺基亚 N73怒破2500元大关
>> 神舟首推45nm本 2G内存瑰丽屏优雅HP800
>> 经典DX9显卡!豪华热管X1950GT仅790元
>> 窝中没电视?挑个FM加身的MP3来听奥运
>> 气势更足一点 飞利浦液晶220CW8售价2788
>> 体验科技奥运技术!值得购买的3G手机
精彩友情推荐
一周精品
>> 最新全高清力作索尼液晶电视40V380A评测
>> 个人装机要留神 本月不能购买的五款CPU
>> 瑞芯新芯迎战华芯飞 蓝魔RM970详细评测
>> 单核时代彻底结束! 双核赛扬E1200评测
>> 保准咋看咋顺眼!便于携带的12寸轻薄本本
>> 2999元-4999元 8款入门用户必备笔记本
>> 二月年关难过 即将会被替代的数码DC导购
>> 佳能被索尼干掉! 看网友喜欢的品牌排行
>> 抢占主流视频市场 399-699元RM机型选购
>> 红得发紫 8款新年最热门笔记本电脑推荐
汽车专栏
>> 新车发布/售价微降 08款奥迪A4正式上市
>> 自主品牌第三波制造轿车浪潮将会汹涌来袭
>> 制定配套细节 汽车销售管理办法必要调整
>> 内外兼修的英国标准绅士 试驾捷豹XKR4.2
>> 年初跳水特价大抢购!RCG GS709超值促销
>> 豪旅 试驾A4 Avant 2.0T Quattro特别版
热点视频
视频介绍:惠普Paviliondv6201TX笔记本
视频介绍:捷波悍马 HA03 主板
视频介绍:联想旭日C466 Disney版笔记本
视频介绍:惠普 V3742AU 笔记本
视频评测:太阳花8600畅跑《极品11》
视频介绍:双敏无极8800GTS显卡
轻松一刻
>> 刘若英玩自拍上瘾 自曝娇悄出水芙蓉照(图)
>> 与富商男友街头甜蜜 章子怡装扮时髦耀眼
>> 张艺谋解密奥运开幕式 点火方式天人合一
>> 英政府公开X档案称战机曾遭UFO跟踪(图)
倒霉鬼连环翻车
何洁与神话成员谈情
重点推荐: 手机 笔记本 MP3/MP4 DC/DV 品牌机 主板 显卡 核心配件 显示器 周边配件 办公外设 网络设备 服务器 蓝牙专区 三好汽车 数字家庭 信息化专栏 在线逛三好
  关于SOSOL - 联系SOSOL - SOSOL生活 - 加入SOSOL - SOSOL大事记 - SOSOL服务 - SOSOL地图 - 版权声明 - 免责声明 - SOSOL招聘
沈阳市和平区三好街奉天硅谷大厦A座 024-23991019 62126792 传真:024-62126793
Copyright ©2003-2008 SOSOL.com.cn All rights reserved. 三好在线(沈阳)传媒有限公司 版权所有. 辽ICP证030214号