什么是数据挖掘?数据挖掘与传统分析方法有什么区别 

什么是数据挖掘?数据挖掘与传统分析方法有什么区别 ![]()


最佳答案

biaoniaowu 考证达人 04-05 TA获得超过675个赞
数据挖掘领域主要包括以下方面:基础理论研究(规则和模式挖掘、分类、聚类、话题学习、时间空间数据挖掘、机器学习方法,监督、非监督、半监督等)、社交网络分析和大规模图挖掘(图模式挖掘、社区发现、网络聚类系数估计、网络关系挖掘、网络用户行为分析、网络信息传播、社交网络应用,社交推荐(信息、好友等))、大数据挖掘(算法的并行、分布式扩展、多源异构数据融合挖掘等)。数据挖掘应用(医疗、教育、金融等)。研究热点是大数据挖掘、社交网络和大规模图挖掘。
下面,在说一下什么是大数据挖掘,它跟传统的方法其本质区别是什么?大数据挖掘可以分为三点:算法的扩展、分布式框架开发、多源数据融合分析。通过阅读KDD’13,KDD’14,几篇KDD’15的big data session中的文章,几乎百分之百的文章都提到了算法的scalability。由此可见,现今大数据挖掘与传统算法的本质区别在于算法的可扩展性。换句话说,现在研究的算法在不仅仅能处理小规模数据集,当数据增加时也具有较大范围内的适合。算法的扩展,我理解为两个方面:scale out-纵向扩展以及scale up-横向扩展。纵向扩展最要在算法底层、良好的数据结构设计或者并行设计方面。横向扩展主要指算法的分布式技术实现(自己编写分布式算法或者基于现有分布式框架实现)。这里所说的“大数据”,在不同的挖掘领域(文本、图结构、机器学习、图像)所对应的数据量是不同的。对文本来说,几百万个样本可能就是“大数据”;对机器学习来说,千万个样本,几十维、几百维(MB/GB)就是“大数据”;对大规模图挖掘来说,千万级节点、亿级边(GB),也是“大数据”;对图像数据,百万级图像(TB)完全可以称得上“大数据”。那么,要做算法的可扩展性是不是必须用到并行技术、分布式编程技术?答案是一般需要,但并不绝对。算法如果做到了极致,单台计算机也能处理“大数据”问题,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC. 文章仅仅在一台计算机上利用线程并行(多核)实现了计算机集群完成的工作。有些文章是用MATLAB来完成的实验(Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process)、有些文章是利用hadoop集群来完成实验、有些是利用C/JAVA语言编写分布式程序实现、有些是利用多核CPU的多线程并行实现。可见,算法的实现方式不重要,重要的是算法具有scalability。多源数据融合以及挖掘分析也可以称得上大数据挖掘,可能不见得数据集有非常大,但是通过多种数据的融合发现了之前完成不了的事情、或者之前完成效果不好的事情。比如:heterogeneous hashing文章用了两个异构数据集(text、image)进行relation-aware分析。特别是微软亚洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data,这篇文章就是融合了5个数据集(气象数据、空气质量数据、POI数据、路网数据、轨迹数据),利用传统的数据挖掘方法进行了融合分析,得到了较好的效果并进行了商业应用。附注:个人认为算法也应该考虑扩展性,在面临数据集增加时,看看是否还会能达到高效地预测结果。
总结:在大数据研究中,更多的是偏理论算法的研究。可以这样说,数据挖掘本身就是跟数据打交道,在特定情况下(数据集较大时或不断增加时),数据挖掘的任何一个研究点都可能会遇到“大数据”问题。所以,真正需要做的是找准一个问题,利用传统方法进行挖掘,并测试在大规模数据集下传统算法是否可行,如果不可行,提出算法的改进版或者自己动手实现一个新的、具有可扩展性的算法,这就是大数据研究的过程(也包括异构数据融合分析)。![]()
下面,在说一下什么是大数据挖掘,它跟传统的方法其本质区别是什么?大数据挖掘可以分为三点:算法的扩展、分布式框架开发、多源数据融合分析。通过阅读KDD’13,KDD’14,几篇KDD’15的big data session中的文章,几乎百分之百的文章都提到了算法的scalability。由此可见,现今大数据挖掘与传统算法的本质区别在于算法的可扩展性。换句话说,现在研究的算法在不仅仅能处理小规模数据集,当数据增加时也具有较大范围内的适合。算法的扩展,我理解为两个方面:scale out-纵向扩展以及scale up-横向扩展。纵向扩展最要在算法底层、良好的数据结构设计或者并行设计方面。横向扩展主要指算法的分布式技术实现(自己编写分布式算法或者基于现有分布式框架实现)。这里所说的“大数据”,在不同的挖掘领域(文本、图结构、机器学习、图像)所对应的数据量是不同的。对文本来说,几百万个样本可能就是“大数据”;对机器学习来说,千万个样本,几十维、几百维(MB/GB)就是“大数据”;对大规模图挖掘来说,千万级节点、亿级边(GB),也是“大数据”;对图像数据,百万级图像(TB)完全可以称得上“大数据”。那么,要做算法的可扩展性是不是必须用到并行技术、分布式编程技术?答案是一般需要,但并不绝对。算法如果做到了极致,单台计算机也能处理“大数据”问题,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC. 文章仅仅在一台计算机上利用线程并行(多核)实现了计算机集群完成的工作。有些文章是用MATLAB来完成的实验(Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process)、有些文章是利用hadoop集群来完成实验、有些是利用C/JAVA语言编写分布式程序实现、有些是利用多核CPU的多线程并行实现。可见,算法的实现方式不重要,重要的是算法具有scalability。多源数据融合以及挖掘分析也可以称得上大数据挖掘,可能不见得数据集有非常大,但是通过多种数据的融合发现了之前完成不了的事情、或者之前完成效果不好的事情。比如:heterogeneous hashing文章用了两个异构数据集(text、image)进行relation-aware分析。特别是微软亚洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data,这篇文章就是融合了5个数据集(气象数据、空气质量数据、POI数据、路网数据、轨迹数据),利用传统的数据挖掘方法进行了融合分析,得到了较好的效果并进行了商业应用。附注:个人认为算法也应该考虑扩展性,在面临数据集增加时,看看是否还会能达到高效地预测结果。
总结:在大数据研究中,更多的是偏理论算法的研究。可以这样说,数据挖掘本身就是跟数据打交道,在特定情况下(数据集较大时或不断增加时),数据挖掘的任何一个研究点都可能会遇到“大数据”问题。所以,真正需要做的是找准一个问题,利用传统方法进行挖掘,并测试在大规模数据集下传统算法是否可行,如果不可行,提出算法的改进版或者自己动手实现一个新的、具有可扩展性的算法,这就是大数据研究的过程(也包括异构数据融合分析)。
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:service@bkw.cn 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
推荐视频
买方证券分析师和卖方证券分析师有什么区别?
cayachai·2020-04-23金融分析师和证券分析师的区别是什么?
cangkanei·2020-04-23项目数据分析师考试流程是什么啊?
aobingzuan·2020-01-27金融业数据分析师要求
benchedi·2020-01-01项目数据分析师资格证含金量高吗
我便一直爱你诺一直在·2019-12-08CPDA数据分析师报考条件有哪些?
cangxuejiao·2019-04-24项目数据分析师的待遇怎么样?工作好找吗?
benpiaobin·2019-04-19高等数学与工科数学分析的区别是什么?
aotace·2019-02-28财务偿债能力分析的基本方法及基本依据是什么?
anpengfou·2018-11-24数据统计分析工具有哪些
canniegen·2018-10-25
证券投资分析考试准考证上有照片吗
chaniuduan·2021-03-06证券投资分析考试成绩单上显示分数吗
日趋堕落·2021-03-06证券投资分析合格证上的照片可以申请更换吗
chancouzhong·2021-03-06证券投资分析考试是当场出成绩吗
cadunsu·2021-03-06申请证券投资分析执业证书需要多长时间
难两全·2021-03-06证券投资分析考试有判断题吗
chaniuduan·2021-03-06证券投资分析考试缴费方式有哪些
bozhaohou·2021-03-06证券投资分析考试需要现场审核吗
chaniuduan·2021-03-06证券投资分析考试通过后需要审核吗
biaopane·2021-03-06证券投资分析考试合格证照片不显示的原因是什么
chanwenshi·2021-03-06
2021年证券投资分析考试《发布证券研究报告业务》章节练习题精选1230
帮考网校·2021-12-30必收藏!证券考试中常见的四种类型计算题
帮考网校·2022-02-102021年证券投资分析考试《发布证券研究报告业务》每日一练1230
帮考网校·2021-12-302021年证券投资分析考试《发布证券研究报告业务》模拟试题1230
帮考网校·2021-12-302021年证券投资分析考试《发布证券研究报告业务》模拟试题1231
帮考网校·2021-12-312021年证券投资分析考试《发布证券研究报告业务》章节练习题精选1231
帮考网校·2021-12-312021年证券投资分析考试《发布证券研究报告业务》每日一练1231
帮考网校·2021-12-312022年证券投资分析考试《发布证券研究报告业务》每日一练0101
帮考网校·2022-01-012022年证券投资分析考试《发布证券研究报告业务》模拟试题0101
帮考网校·2022-01-012022年证券投资分析考试《发布证券研究报告业务》章节练习题精选0101
帮考网校·2022-01-01
证券投资分析考试成绩查询操作流程是怎样的
biaoledi·2021-03-03证券投资分析考试题量是怎样的
beizhuyong·2021-03-03证券投资分析必须要通过哪几门
binnuankua·2021-03-03证券投资分析考试有多少道考试题
baiwengcun·2021-03-03报考证券投资分析师需要什么学历
canzenhen·2021-03-03证券投资分析专项业务类资格考试题型有哪些
adiusun·2021-03-03证券投资分析师报考条件是什么
changzuanlian·2021-03-03证券分析师考试科目有几门
biaochaqi·2021-03-03证券投资分析一般从业资格考试科目是什么
cainiepai·2021-03-03证券投资分析考试成绩合格证怎么打印
bengsaifeng·2021-03-03
热门视频
01:31
证券分析师胜任能力考试应该如何备考?2020-05-15
04:30
证券分析师考试章节重要考点都有哪些?2020-05-15
00:49
证券分析师《发布证券研究报告业务》考试题型和分值是怎样的?2020-05-15
00:38
2020年证券分析师胜任能力考试报入口在哪?2020-05-15
04:09
2020年的证券分析师考试地点定了吗?2020-05-15
互动交流

微信扫码关注公众号
获取更多考试热门资料