深圳网站定制设计,wordpress获取分类名称,网站导航条用什么做,广西建设教育协会网站笔者鼓励致力于从事数据行业的去参加一些人工智能#xff0c;机器学习的培训#xff0c;然后有人说#xff1a;其实很多企业不喜欢培训出来的人#xff0c;认为培训不贴近实际#xff0c;纸上谈兵。
我倒不这么看#xff0c;其实即使在企业内干数据挖掘的人#xff0c;…笔者鼓励致力于从事数据行业的去参加一些人工智能机器学习的培训然后有人说其实很多企业不喜欢培训出来的人认为培训不贴近实际纸上谈兵。
我倒不这么看其实即使在企业内干数据挖掘的人很多也出不了活这个不仅仅涉及业务和技术更是管理上的问题。
任正非说华为最后能留下来的财富只有两样一是管理框架、流程与组织支撑的管理体系二是对人的管理和激励机制什么是流程化组织简单的说就是基于流程来分配权力、资源以及责任的组织。
为什么这么说
笔者的粗糙理解就是好的做事的方法靠人的口口相传是没有用的写成书也是没人看的只有把这些东西固化到企业的生产流程中去。
你要干活就必须遵循这个流程才能让这些方法成为企业的基因无时不刻发挥出其应有的价值阻止突破底线事情的发生流程让新人做事一开始就站在巨人的肩膀上。
创新型的公司往往是传统流程和机制的破坏者但当初公司在建立这些流程和机制的时候其实符合当时的大多利益而且这些机制和流程确保了企业最基本的利益所以后来要被颠覆只是因为跟不上变化了而已绝不是说机制和流程本身就是个问题。
可惜的是对于数据挖掘这么复杂的、不确定性的工作我们竟然很少去制定符合其特点的相关的流程和规范有些数据挖掘美其名曰立项建设大多采用放飞的方式进行失败是大多数的投资浪费是很多的偶偶的亮点不能说明问题。
数据挖掘工作定义的六个阶段业务理解、数据理解、数据准备、模型构建、模型评估、模型部署被大家简单的理解为纯粹的技术步骤从来没想过这些阶段跟管理有什么关系。
但正是管理的缺位导致大量的数据挖掘工作事倍功半新人来到一个团队历经千辛万苦作出的东西往往一文不值这到底是新人的问题还是团队的问题
数据挖掘工作其实根本不可能靠闭关三日来给出什么惊喜这是为实践所证明的。
如果你是一支数据团队的管理者改变不了整个企业的环境比如数据驱动业务的思想公司的政策等等但应该在你的职权范围内在有限的资源条件下用更好的管理手段让数据挖掘工作变得更有效。
最近我跟团队正在思考拟定数据挖掘的管理流程和规范共5个关键节点希望新人做的数据挖掘工作能够按照规定的流程走从一开始就能站在一个较高的起点上并一直处在一个较为正确的方向上直到成功或者快速的失败。 一 需求分析
团队大了工作多了每个人的自由权就相对大了这个时候团队就要明确一些做事的原则什么样的数据挖掘可以做什么样的数据挖掘不要做这个不能靠拍脑袋以下给出了4个原则如果不满足就要退回
1、公司或部门重点工作比如OKR、领导安排的重点需求、日常运营分析和一线反馈的重点需求杜绝不计原则的去接收挖掘需求数据挖掘不是买菜要耗费企业最珍贵的数据分析或挖掘资源少而精是原则。
2、判断是否已有相关模型或标签满足需求有则推荐现有模型和标签如果有相关模型或标签但无法满足现有需求则需优化原模型和标签这其实也是数据治理的要求很多挖掘其实是原来做的不好或者未有效推广不能重复造轮子。
3、双方明确数据挖掘目标初步评估技术可行性及大致所需工期包括度量成功的指标精确率、召回率、定义成功的基准小样本验证、AB测试等业务侧可能的主观评估标准覆盖用户数、纳入业务生产流程等等。
4、联系业务方明确验证方案如果对方无法承诺验证环境比如政策和外呼资源等等则要特别谨慎根据经验由于配合不到位导致的模型延期上线或者失败的案例比比皆是究其原因还是因为业务方不够重视或者级别不够调动不了相关资源去推进这个事情。
除了以上原则我们还制定了升级领导的原则包括与业务方无法在目标上达成一致实施周期超过XX人天等等这些都是为了制止盲目的开启一个数据挖掘课题。 二 方案设计
这一过程看似简单有些人甚至只是脑子转了下就仓促跳过但很多建模失败就栽在这个阶段。
在方案设计阶段要善于换位思考承认自己的认知有限性始终想着如何才能获得最强的“业务大脑”和“数据大脑”来帮助你更好的理解业务和对应的数据包括三个方面的工作
1、明确所需数据及必要的特征对于较为复杂且重点课题一般都要组织相关利益方开展头脑风暴集思广益进行特征的有效选择大量的数据挖掘工作失败在于建模者仅凭自己有限的业务知识和有限的调研包括有限的通识理解特别是不谙世事的新人就仓促选定变量然后直接跳到自己以为擅长的数据建模阶段在调参上耗尽心血最后事倍功半代价不可谓不大。
2、明确所需模型及技术实现步骤一般跟着经验走就可以了关于技术实现步骤相信每个企业都有自己的经验做法比如我们就发现随机森林在很多情况下好用新人不清楚就问导师这一步其实是比较简单的。
3、进行方案设计的汇报要向利益相关者及你的领导汇报方案领导可能技术上不如你但人生经验比你足业务视野比你开阔拥有的资源比你多。
因此要努力争取到他的看法领导支持你去做这个事情不代表他就支持你的设计不要试图跨过领导等有了建模结果后再向他汇报因为一旦结果不好领导的团队成本已经花出去了他不看好你的设计方案可以直接说NO你要给他这个机会。 三 建模开发
这个阶段大致可以分为三个子过程
1、宽表开发及数据预处理谁都知道这个步骤大家都喜欢建立自己的宽表为自己的数据挖掘服务但如果你对企业的数据资产局理解不够全面的化就会在宽表处理上重复造轮子效率很低。
因此对于数据资产的全局掌握进行定期的培训和考试是有必要的很多人做了好长时间数据挖掘却对于融合模型不清楚这是管理上出现了问题。
2、模型基线开发及训练评估参数调优、交叉验证、效果评估都是需要反复进行的过程但如果发现难以达到满意的结果就不要一路走到死召集相关人员进行一次技术讨论是非常有必要的。
4、模型和标签上线发布模型和标签上线要遵循严格的标准包括是否满足当初设定的技术指标要求是否满足数据治理要求是否满足运维性能的要求等等。 四 试点验证
1、效果验证跟功能开发不同模型上线不代表就结束了因为实际的生产环境跟你的训练环境会有很大的差别你需要协调业务方按照当初的承诺尽快的进行效果验证这个时候你要承担起连接者的角色推进各方尽快反馈生产的效果如果无法达到当初的设定目标就要考虑重新优化模型试点推进不利很多时候是业务方的原因比如外呼排期延后等等这个时候就要推动领导协调。
2、试点汇报一旦达到要求就要组织业务方和自己方的领导进行汇报明确模型是否具备全面推广或纳入生产的条件这个涉及到业务方相关政策和资源的配合不是简单的模型的问题。组织这种会议其实是向各方领导表明我已经完成了任务但要让这个模型产生价值接下来你们得给我资源配合完成剩余的非功能性工作好的模型最后不了了之往往是沟通出了问题业务方的领导跟你的领导很多时候信息是极度不对称的你要干成事情就得多做协调的事情。
很多试点的结果并不理想汇报的另一个目的就是及时止损一方面是由于市场变化很快总有意外的情况发生另一方面是现有的模型的确达不到业务要求你不能被一个看似无前途的事情拖死你需要领导帮你做决策继续干还是放弃。 五 总结汇报
1、你要跟踪模型的生产运行效果及时发布运营报告让你的领导和业务的领导知道你干成了这个事情很多时候试点的效果很好但一旦纳入生产情况并不理想因此要持续的跟踪一段时间。
2、如果模型的效果保持稳定则可以将其移交给统一运营团队如果有的话代表你交给公司的是一个可用的模型从而进入常态化运营阶段这个时候自己才可以全身而退。后续如果运营团队发现模型有问题可以向你提交优化需求由此迭代。
数据挖掘最怕的就是只管杀不管埋比如训练结果很好但其实试点情况很差试点情况还好但生产情况很差开始生产的时候还行但持续一段时间就不行了。
模型师一定要记住模型的上线绝对不是你工作的终点而仅仅是起点只有模型进入稳定的生产阶段以后你才算完成了工作大量的外包数据挖掘工作所以失败就是因为他们把数据挖掘工作当成了简单的功能开发。
你会发现笔者从需求分析讲到总结汇报都不在谈技术而是在谈管理我在谈进入每个阶段时要采用的质量控制的手段其实每个阶段的周期也要控制一般来讲如果某个阶段超过了二个礼拜可以根据企业实际调整就要反思和对外暴露问题。
根据以上的内容很容易就画出数据挖掘的管理流程可以贴在墙上成为军规。当然每个企业的情况不同流程可能不一样但一定要沉淀出这种流程它们保证了基本的做事的效率不会由于人员的变动而导致效率的下降这就是任总所说的流程化组织要干的事情吧。
这是我最近的一点思考大家一起加油吧。