搜索
查看: 4375|: 0

大数据,大问题:一个数学家对游戏分析现状的看法

[复制链接]

202

主题

6

回帖

885

积分

高级会员

积分
885
发表于 2014-8-12 15:19:58 | 显示全部楼层 |阅读模式
走完90%的路?
关于游戏分析,我经常听到的一句话是“简单的东西会让你走完距离成功漫漫长路上的90%”。每当听到或者读到这句话的时候,我的第一反应是“你真的亲身体验过吗?你真的走到了现代机器学习和统计研究能带你走到的最远地方,并且得出如下结论,即这些工具提供的额外信息只占据报告结果的10%,而直方图、柱状图和热点图能告诉你关于公司股东希望从数据集中了解信息的90%?还是说你从别人那里读到了这句话,并且认为它是正确的?此外,你说的‘简单的东西’到底指的是什么?”
我不是说在很多情况下这句话都不对:我确实见过很多没必要建立逻辑回归模型为例的游戏,但是当游戏行业有一些最好的可用数据源时,我经常惊讶于与其他行业相比,游戏公司对待数据的不同方式。我想说的是,从我与开发商和生产商对话的经验来看,运用游戏分析作为一个整体,做的并不是很好。
现在,我完全理解有很多因素约束着分析调查的质量:时间和金钱是极其稀缺的,但是开发商仍然希望能够从数据中获得更深刻的信息。问题在于,一个糟糕的报告是十分危险的。样本偏差,滥用数据挖掘工具,结果的误解和许多其他导致损害游戏设计和生产过程的因素。这很难说是哪个人的错,只是因为做“适宜的”数据科学是十分困难的,并且在统计学和计算机科学之间找到正确的平衡是十分重要的。


常见问题
在对数据分析进行广泛调查之后,我发现了四个在分析游戏数据时经常被忽视的问题:
数据清洗
玩家是多变的生物,并且经常有匪夷所思的行为。因此,如果你不对数据进行清洗以去除离群值,那么你试图为玩家设计的统计指标就会失真。确保深思熟虑过什么才是你感兴趣的:获得优质的数据来分析特定问题对于得到一个有意义的结论是至关重要的。
数据服从哪些概率分布
在游戏分析中,统计指标的计算太过基于分布式数据。如果你的数据不是服从正态分布的,却基于这个假设进行统计检验,那只会得到失真的结果,从而导致糟糕的设计决策,进而最终致使游戏失败。认真的思考对数据做的假设:这些假设能通过检验吗?
过度依赖数据可视化
想把数据进行可视化处理是可以被理解的,尤其是游戏开发这样一个可视的过程。此外,数据可视化是分析过程中一个必不可少的关键部分。然而,如果你展示的所有报告都被归结为一张漂亮的图片,那么很有可能错过了关于数据集大量潜在的深刻分析。在统计学中,箱型图,柱状图及类似的图形都只是探索性数据分析的一个部分,这通常是一个统计学家在对数据进行正式处理前找找数据的“感觉”时采用的方法。相比仅仅由图表展示出来的部分,数据集很可能包含了更多的信息。
行为建模
提示:鉴于我个人对行为建模的兴趣,对于该主题的观点是具有倾向性的。
游戏分析学术界公认推断用户的动机是十分困难的。虽然在很多情况下这是真的,但是如果你愿意并且能够创建一个关于玩家行为的模型,那么很可能对理解游戏通关过程中特定事件的发生原因作出一个合理的推测。显然拥有这样的动机数据对设计者和投资者来说是极其有利的,但是在游戏分析学术界和生产中这都是在很大程度上未被探索的领域。如果一个开发者有这样的资源,对玩家的行为进行建模和分析将会对阐释其他游戏行为大有助益。

结束语
虽然这篇文章可能会给你留下这样的印象:实践中游戏分析的使用并没有给我留下深刻的印象,但是情况并非如此。相比之下,我相信许多公司设立的收集和分析数据的系统是最先进的,但是我确实认为获得工作室收集的绝大部分数据集将能做到更多事情。了解我们用户的需求是游戏开发的本质问题:通过整个行业进行更好的分析会使解决这个问题变得更加容易。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-23 05:11 , Processed in 0.061169 second(s), 24 queries .

快速回复 返回顶部 返回列表