数据挖掘技术 数据挖掘的四种基本方法
之前介绍过两个帆软的数据挖掘案例:
《一个案例告诉你,数据挖掘如何用于企业生产》
《店铺如何选址?这套算法预测销售额,误差仅300元!》
都是应用于实际业务场景的案例,并且带来了切切实实的收益!
那这样的数据挖掘方案,到底是如何的呢?
有哪些常用并成熟的挖掘应用,能解决什么问题?
技术架构是怎样的,需要什么样的工具支撑?
本文将细细讲述下。(全文3500字,建议先收藏)
基本介绍
帆软的数据挖掘方案,提供多种算法功能以及脚本支撑和技术解决方案,帮助企业快速挖掘数据背后的价值并结合实际业务实现价值变现。
数据挖掘方案依托于BI工具FineBI,包括数据获取、数据清洗(ETL)、算法建模、模型验证、模型应用全流程功能。
简而言之,就是不仅能建立数据挖掘模型,还能使用FineBI将挖掘结果直接在业务应用中进行可视化展示或者指导业务活动。
特性和优势
1、内置5类算法:
目前集成了时间序列预测、分类、回归、聚类、关联规则5类算法,也是最常见最成熟应用的通用算法。
时间序列预测集成了holtwinters算法,可满足对具备非周期性、季节性、周期性其一或几个特性的时间序列来进行预测。时间序列算法属于短期预测算法并不适合长期预测,所以,在使用中建议预测未来二分之一个周期时间长度之内的值,预测时间过长,预测结果将可能产生较大的误差。在实际应用中,时间序列预测常用来做未来销售额预测,比如拥有两年的历史月销售数据,可以来预测未来三个月的销售额。
分类算法集成了神经网络和决策树算法,这两种算法属于典型的分类算法,在实际应用中的应用面也远远多于时间序列预测,比如可以用分类算法做多因子影响的销售额预测、用户品类偏好预测、用户价值分级、预测性维护等,是一个能用于各行各业各场景的多面手。
回归算法集成了线性回归和岭回归算法,回归算法也常用于预测,其对于因变量与自变量之间有线性关系的场景,预测效果往往表现得很好。
聚类算法集成了最常用的kmeans算法,常用于将具备相似性的事物归为一类,和分类算法不同的一点就是,分类算法是监督学习而聚类算法是非监督学习,两者之间应用场景有很多重合,但满足算法的数据却具备完全不同的特征。
关联规则集成了aprior算法,关联规则最常用的就是购物篮分析,当然也可以用于疾病预防等其他场景中。
2、支持python、R脚本:
除了内置的算法之外,还集成了python和r脚本,可以使用脚本完成数据清洗、特征选择、特征工程构建、模型训练等工作,还可以从外界读取已经训练好的模型来执行同时也可以保存训练好的模型到本地供第三方系统读取执行。在支持完成这些步骤工作之外,还支持调用python和r语言官方包或者第三方包调用内置算法之外的算法进行模型训练。
简而言之,能用python或者R语言脚本做任何他们本身能做的任何事情,比如在数据获取时可以用python写爬虫获取外部数据作为原始数据的一部分,比如在数据统计分析时,可以用python、R 脚本直接调用封装好的库来执行,比如模型训练时调用机器学习包中的其他算法来进行模型训练。
3、智能挖掘:
智能挖掘定义为用户除了输入数据之外不需要做任何操作就能得到结果的挖掘过程,智能挖掘是帆软的自研算法,主要用于时间序列预测。实现了从时序分析到时序建模到时序模型调参的全自动化,最终会选择最佳的模型作为应用时序模型。智能挖掘中包含了移动平均、加权平均、holt-winters、airma所有用于时间序列预测的算法,在实际应用中测试结果显示智能挖掘预测结果远远优于人工时序预测结果。
智能挖掘的诞生一是为了最大程度的减少用户操作过程,一是为了降低使用数据挖掘的门槛,使用智能挖掘功能不需要了解时间序列预测各种算法内部是如何执行的、各个参数代表什么含义,真正意义上让任何人都用上数据挖掘的同时降低用户操作难度,是智能挖掘诞生以及后续成长的核心价值。
4、一站式应用平台:
之于数据挖掘来讲,单纯的模型构建训练功能、单纯的ETL+模型构建训练功能在实际生产中都是不切合的,在算法模型的基础上还需要业务应用才能真正发挥数据挖掘的价值。
结合FineBI自身的ETL功能与可视化展示,数据挖掘可以从数据获取——ETL——模型训练——模型输出以及最终的可视化应用展示,甚至业务系统集成应用,整条生产线的一站式平台搭建,除了本身的应用集成之外还支持第三方系统直接调用已经训练好的模型作为系统数据处理层更好的支撑第三方系统运作。另外,FineBI的数据挖掘也支持常见的挖掘结果写入数据库,第三方系统调用数据库的运作形式。
5、提供成熟的应用解决方案支持:
既然是解决方案,除了产品本身,还是技术项目支撑。
目前帆软数据挖掘团队成功运作过店铺选址、个性化推荐、智能排产、质量检测等应用场景。
每个解决方案都是基于客户实际业务运作体系、业务使用场景以及业务数据提供的,内容包括需求探索确认、数据清洗、特征工程、模型训练、模型验证、模型应用全流程实施过程方案与细节。
举例。
场景应用
1、店铺选址:
适用企业:服装、鞋靴、珠宝、美食等拓店速度快、拓店数量大的这类企业。
业务需求:企业在拓店之前需要评估店址,店址的评估最终表现形式多是新店址未来一年销售额能达到多少,当预估销售额超过企业内部新店标准时就算合格。实际业务中采用人工估算不仅预估值误差大而且人力成本高,因此,切合实际业务来讲,需要使用算法模型来预估新店销售额,作为店铺选址的数据支撑。
解决方案:结合新店址所在区域、商圈的人口密度、消费水平、消费习惯、商圈口碑、同区域的老店铺历史销售额等数据,使用算法训练模型,预测出新店未来某个时间范围的年度销售额、季度销售额、月度销售额,以预测值作为业务开展依据。
达成效果:企业可以以预测销售额来开展新店址选择业务,并且根据中间结果做相应的成本投入安排以及销售额调控措施,帮助企业降低成本的同时提升企业收益,使企业达到利益最大化。
2、质量检测:
适用企业:军工、制药、轮胎、汽车等对质量有高要求的制造业企业。
业务需求:制造业企业生产出来的产品需要质量检测合格之后才能投入市场,需要借助数据挖掘工具来简化/去掉现有检测环节,从而提高生产效率、生产质量以及降低企业生产成本。
解决方案:结合历史生产各种质量产品对应的原材料数据、生产流程数据、生产参数数据以及最终产品质量数据等,使用算法训练模型,找出与最终产品质量相关的因素以及对刚生产出来的产品进行质量检测判断,淘汰掉不合格的产品。
达成效果:企业可以根据产品质量相关的因素进行点对点把控以提高产品生产质量和效率,同时使用这套系统能一定程度上取代之前的质量检测方式或降低原有检测工作量。
3、精准营销/个性化推荐:
适用企业:电商、超市、大型商场等从事B2C销售以及部分B2B销售企业。
业务需求:随着消费升级反推产业升级,在海量可供选择商品中,如何给用户推荐他当前最想要、最需要、最满意的产品很大程度上了交易成功与否,给不同的用户推荐各自当前最想要的产品需要大量的规则与算法支撑,也是企业营销的重点。
解决方案:对用户做基于用户基本属性、LBS属性、业务属性、行为属性、特征人群属性、用户分级属性、兴趣偏好属性等属性的用户画像,之后使用各种算法经过推荐召回和推荐排序给用户推荐其当前最想要、最需要、最满意的产品,从而减少用户选择时间以及提升交易成功率。
达成效果:企业能够针对特定人群开展当前时间最适合的促销等活动,企业通过个性化推荐给每个用户推荐不同的商品以及开展的一系列营销活动,企业销售额、成交率、利润率、好评率、回头客等都有明显的提升。
4、智能排产/库存调节:
适用企业:制造业类企业、供货商、销售终端等处于SCM内的企业
业务需求:大量企业存在供货不及时、库存堆积、物流周转不理想的问题,企业需要知道未来一段时间产品的销量、库存剩余可供销售时间、未来一段时间需要生产产品数量等信息,才能更好去开展排产、库存调节等工作,而这些数据需要大量的规则与算法来支撑。
解决方案:以超市生鲜为例,基于超市生鲜历史销售数据、天气数据、日期数据、客流量数据等使用算法建模,预测出未来天粒度、周粒度、月粒度的生鲜销量,超市根据未来销量开展库存调配与生鲜进货等工作。
达成效果:超市生鲜内产品销售额较之前有所上升,运营成本、材料成本等有非常大的降低幅度,从而使超市的收益有明显提升。
5、设备预测性维护:
适用企业:需要做设备维护的制造业企业类
业务需求:企业生产设备通过定期维修或者随机检修的模式存在人力成本大以及维修不及时导致设备生命短等问题,需要能够监控企业生产设备健康状况并能有检修报警提示,实现生产设备按需检修以降低人力成本和保证设备处于健康状态不影响生产。
解决方案:通过传感器获取设备运行状态中的各项参数数据,基于设备历史运行数据、历史异常运行数据等数据使用算法建模,预测出设备未来一段时间发生设备故障的可能性或者预测出设备下一次设备故障的时间,通过预警形式,提前执行设备维修。
达成效果:通过设备预测性维护,能够降低企业设备维护成本、延长设备生命还能降低企业运营成本,更关键的是通过设备预测性维护,能够保证设备一直处于健康的生产状态,不会导致生产活动异常或者生产延迟等问题。
6、病原分析:
适用企业:医院、制药企业
业务需求:绝大多数的疾病在出现之前都会有一系列的症状或者一些相关的其他疾病,但并不是所有症状或者其他疾病都有很明显的关联关系,即单纯依靠医生来辨别要求医生需要长时间的从医经验。如果能知道某项疾病在出现之前会有哪些症状就能提前预防疾病发生,对于疾病治疗有很大的好处。
解决方案:基于历史病历数据通过算法得出症状与疾病之间的关联关系,然后该关联关系可以作为参考,比如出现A症状得B疾病的置信度有多大一类,具有强烈的相关关系以及前后关系。
达成效果:帮助病人提前发现患有重大疾病的苗头,提早治疗,提高治愈可能性与降低治愈成本。
7、购物篮分析:
适用企业:超市、商场等涉及货物摆放的企业
业务需求:超市、商场购物往往需要购买多种商品,引导用户去购买其他商品是超市和商场都需要做的,超市需要降低用户购买其他商品所花费的时间以及引导用户去购买其他商品,因此,需要将相关联的商品摆放在一起,来达成这种效果。
解决方案:分析历史交易数据、购物清单,通过算法分析出商品之间的关联关系,比如购买了A商品的用户基本都都买了B商品,则即使A、B商品不同种类,也可以将两者放在一起,提高购买率。
达成效果:诸如男士购买了纸尿布还会购买啤酒的经典场景,能够达成用户买了A商品不用去其他位置就能购买B商品和购买了A商品本来想不起购买B商品却提醒他购买了B商品的效果。
最后,对数据挖掘感兴趣的,可以下载FineBI尝试体验下,对整体方案感兴趣的,可以戳下↓↓↓“了解更多”。
了解更多