数据挖掘:什么是数据挖掘?

数据挖掘什么是数据挖掘

大家好我是姚余梁欢迎来到我的生活中的管理学节目

今天我给大家讲一讲什么是数据挖掘

我们正处在一个信息大爆炸的时代主要表现在大量信息的产生并以数字化的方式被记录下来

之所以会有信息大爆炸我在前面的节目里面都有讲过一个主要的原因是信息技术的成本大幅下降并且迅速广泛地普及

十几年前二十几年前一个个人电脑的硬盘大概也就是一个 G 左右今天硬盘的大小都是几百个 G 甚至上 T而价钱上基本上没有变化不但没有变化甚至有所下降

正是信息技术的普及造就了信息大爆炸的时代信息多了是好事也是坏事好事是因为信息可以帮助更好地决策坏事是因为信息太多了如何找到有用的信息又变成了一个难题如大海捞针一般

在今天的信息大爆炸的年代代表信息的数据就好像大海而要在广阔的大海里面找到想要的某一条信息或知识也是一件很难的事情所以说大海捞针的捞”字其实很形象地刻画了数据挖掘的过程

简而言之数据挖掘就是从存放在数据库或者数据仓库中的大量的数据中获得有效的新颖的潜在有用的最终可以理解的模式的过程

这个定义说出了数据挖掘的四个基本特征一个是有效二是要新颖三是要有用四要可以理解这四个基本特征缺少一个就不是严格意义上的数据挖掘

下面我给大家一个一个讲一下

有效是指数据挖掘过程所使用的方法是正确的

无论是用统计抽样假设验证还是人工智能模式识别还是机器学习等等的方法都能够正确的使用有了数据做正确的数据分析这是最基本的要求了但是即便是最基本的要求有的时候一不小心也是有可能做错的