社媒是个大染缸,顽主比烂,僵尸横行,水军泛滥,大数据挖掘又有什么意义? 无论是怎样大的染缸,它实际上成为最具规模、最便捷、有时甚至是唯一的普罗网民的舆情宣泄口,尤其在东土。 水军僵尸总会有对付的办法。社媒的混沌和杂乱不是不作为的理由。从情报角度,它可能不是富矿,但肯定是金矿,就看你有没有本事挖掘它。 有啥用处呢?先说它的不宜和禁忌,也许更好。 1、这种挖掘不宜做预测,更适合做回顾。当然,历史是未来的镜子,回顾过去也未尝不能透出一点趋向的预测。 2、这种挖掘一般不提供问题的答案,特别是科学问题,答案在专家或上帝手中,不在网民的口水中。 3、大数据不是决策的唯一依据,只是依据之一。正确的决策必须综合各种信息来源。大事不提,看看笔者购买洗衣机是怎样使用大数据、朋友口碑、实地考察以及种种其他考量的吧。以为有了大数据,就万事大吉,是不切实际的。 有网友怕大数据挖掘误导读者。的确,大数据的操作和挖掘可能有bug。但大数据提供的舆情全貌鸟瞰是其他手段代替不了的,而我们每个个体在日常接触中只能看到舆情信息海洋的一滴水。事实上,无视大数据更容易被自己的局限所误导。害怕大数据,就好比蒙上眼睛,世界就不见了一样可笑。 好,回到有啥价值? 最直接的价值就是可以补充、加强并最终取代问卷调查。(譬如可以用来测量一场运动、战役、广告的效果,总统选情的检测,等等。) 第二个价值就是为公关危机提供检测和预警的工具。 企业中的usecases有十多类(scenarios),在我看与上述两种都大同小异,但是企业人士不认为这样简单,因为每个scenario都有其独特的设置、优化和资源配置,因此都有其独特的价值,不少价值可以最终由ROI来客观测量。 其他潜在价值可能也有,但不能确认,还在探索中。譬如相关性和不相关性研究。有了数据,有了工具,应该可以玩出一些花样来。这些都是可以探索的。 作者:李维,博士,首席科学家,架构师,自然语言平台和核心技术设计者。所设计研发的自然语言平台支持新一代多语言搜索引擎和问答系统(包括中文),用于企业市场,主要搜索互联网上的商业情报,包括产品技术信息,客户反馈,社会媒体舆情等。该产品为多家财富500强的研究部门和市场部门采用。2001年获加拿大 Simon Fraser University 计算语言学专业博士学位。本文转自他的博客。 |