搜索
查看: 3254|: 0

数据挖掘不是你想做就能做好的

[复制链接]

202

主题

6

回帖

885

积分

高级会员

积分
885
发表于 2014-9-15 16:19:57 | 显示全部楼层 |阅读模式
       这段时间,重新思考了数据挖掘这条路怎么走,因为是广东人,比较恋家,一直不怎么想离开广州。广州这边数据挖掘的氛围并不浓烈,并且能数到的企业就少之又少,招到的岗位就少之又少了。而自己一直都是混到中小企业里面,也没期待能去到那些高端大气上档次的企业,并且高大上的企业在一系列的高端定位需求下,也很容易把我这种只干活不吹牛的人刷下来。

       况且仔细看一下现在很多企业招数据挖掘,首先就是一系列的技术需求:具备C/C++、JAVA或Python的开发技能;熟悉机器学习的基本算法,熟悉Hadoop分布式计算和Web信息检索者优先;有大规模分布式计算平台的使用和并行算法开发经验。

       有时候看到这些就会我就会觉得心里拔凉拔凉的,现在的数据挖掘怎么都这么偏向追求技术方向,对业务、高级统计学、数据挖掘模型好像怎么都用不到了。难道会这些技术就能够做好数据挖掘了么?在我的眼中,数据挖掘就是小规模的数据建模及测试训练,结合业务对数据抽丝剥茧,找到最优的业务规则,然后借助开发人员把最优算法规则进行IT部署,进行全量数据调优,实现数据闭环应用。不可否认尖端的技术能够实现很多算法优化,但有时候算法最优的在业务应用过程中效果却不一定好,做数据的人都知道必须从业务出发,有时候还是用最有效的业务细分,也能达到不错的效果。但看到那些一系列的技术要求,有时候就怀疑自己是不是就要好好学好C、java等开发技能,才对自己的路有好的选择。但毕竟人的精力是有限的,也不需刻意去中途一把年纪再去折腾程序开发这些,因为写这些东西,还不如直接招几个刚毕业的学生,人家写这些代码写得又快又漂亮,比我这种奔3的人做得好很多。

       不可否认,现在非结构化的数据越来越多,并且越来越多。但要做好数据这一关,很关键就是将非结构化的数据转化成结构化的数据,而处理这些事情,其实做好标签库很重要,虽然没混过高大上的企业,但始终认为做好标签库,形成标准的标签目录,在目前风口上的大数据中始终很重要。而个人一直做的是偏业务方向的数据挖掘,过去2年中,有时候怀疑挖掘模型有些应用场景却不是很实用,有时候做的某些模型只是锦上添花的作用,很多时候做的模型都是结合业务出发,进行客户细分,然后输出营销清单,进行A/B测试及效果评估,然后将比较好营销效果的规则形成一套知识沉淀下来后续继续使用。

       对于数据圈子,发现这个圈子很小,能力如何,自然就知道。有时候有些大企业的数据人,没必要装着一脸清高,如果你不是公司的超级高层,没必要觉得自己高贵,其实大家身份都是一样,都是打工的,没必要过于贬低别人而显示自己的高贵和能力多强。每个人都有自己擅长的一面,遇到有些人因为口才不善或准备不足,就谈了15分钟就评价人家是打酱油的,而显得自己能力超强,其实没必要,个人曾经遇到这样的事情,做数据不是说得好就能把事情做好的,请记住。

       本来想折腾去互联网的,想不到还是回到了老本行,不过现在折腾偏挖掘模型的事情比较多,目前有些细节的问题有点缺乏,但还是抱着一颗小学生的心态去请教同事和朋友,总觉得越学习,越无知,在数据的路上,永远保持一颗无知的心态,才能有动力做下去。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-15 06:51 , Processed in 0.062701 second(s), 24 queries .

快速回复 返回顶部 返回列表