Tyler Sigman:阐述统计学在游戏设计领域的应用

频道:生活应用 日期: 浏览:29

这篇文章挑选了部分游戏开发者必须了解的统计学知识要点。对于系统开发者、机制开发者、均衡开发者等设计行业的从业者而言,统计学具有显著的价值和必要性。

统计学虽然以数学为基础,却相当乏味,确实如此,假如你不得不去钻研双边置信区间,学生T检验,还有卡方分布测试,并且需要大量研究,那么有时候你会觉得这些知识点非常难以理解。

通常情况下,我对物理和力学比较感兴趣,由于经常通过简明解析案例就能验证现实情况。比如计算苹果从树上掉落的速度和轨迹,倘若得出苹果需以每小时1224英里垂直向上飞出的结论,那么实际上你已经在思维里确认了答案。

统计学的好处是容易明白并且合乎逻辑;但它的缺点是显得有些特别。不管怎样,这篇文章讨论的内容不会让人觉得乏味,由于多数内容都是具体存在、属于关键的数据信息,你应该有耐心去逐步探究。

statistics(from wired.com)

statistics(from wired.com)

统计学:黑暗的科学

统计学是所有学科领域中最易被邪恶势力滥用的科学。

统计学若使用不当,便如同作恶一般,其分支会得出诸多毫无道理或纯属虚假的关联性结论(可参考文末案例)。倘若政治家或非专业群体掌握统计学,便有可能左右关键抉择。通常情况下,源自错误归纳的劣质决策总是备受诟病。

换言之,恰当运用时,统计学确实极具价值且效果显著。但专横势力却会利用统计学从事违法活动,甚至将其导向毫无意义的方向。

统计学——所谓的争议

我已准备进行简洁的概括,不过我留意到维基百科已对统计学进行了解释,而且表述非常接近诗化的语言,具体如下:

统计学属于数学范畴的一个分支,主要功能在于汇集资料,加以研究、阐明和展示。这种学科在众多学术领域都有应用,包括自然科学、社会科学以及人文科学;同时它也常被工商界和政府部门运用,作为获取信息并制定决策的依据。(Courtesy Wikipedia.org)

这篇文章确实十分触动人心,尤其是结尾处提及的"应用于情报判断"。

诚然,作者漏掉了提及“游戏设计行业”,不过我们宽恕他对这个充满活力的新兴领域的认知不足。

以下为我自己撰写:

统计学是数学的一个应用领域,它包含数据采集与处理,通过这些工作能够掌握历史演变规律,对未来走向做出判断,进而增进我们认知层面上的理解。(Courtesy Tylerpedia)

如果将此修改为适用游戏设计领域,那可以如此陈述:

统计学照亮了你的故障系统与残缺构想的前路,它赋予你有价值的设计选择可靠的科学依据,以此确保决策的稳固性。

须知的事实

统计学和其它基础学科一样,具有相当的深度和难度。跟前面章节的范畴类似,这篇文章只探讨部分核心议题,我个人觉得领会这些内容已经足够了。

再次突击测验

很抱歉我要采取另一项测试了。别讨厌出题目的人,讨厌测试吧。

Q1a)设有20位测试者刚结束蜗牛竞速游戏《S-car GO!》的某个阶段,已知单圈耗时最短1分24秒,最长2分32秒,预估整体用时约2分,请问此测试能否通过?

Q1b)这一关卡中你获取了相当多的信息,经过整理后发现:平均用时为2分5秒,波动幅度为45秒。这样的结果你是否会感到满意呢?

Q2)你开发了一款休闲游戏,即将正式推出,在最终答疑环节,你发布了一个试玩版本,随后汇总了所有反馈信息作为研究基础。你统计了上千名普通玩家的得分,以及一百多名特殊玩家的得分(部分玩家参与了多次游戏)。通过分析这些信息发现,整体平均得分是52000分,得分波动幅度为500分。请问这款游戏能够正式上线吗?

你开发了一款角色扮演游戏,随后统计了玩家在第一到第五个阶段所耗费的时间,具体数据为:4.6小时、3.9小时、5.6小时、0.2小时、5.5小时、4.4小时、4.2小时、5.3小时。需要计算这些数值的平均数和标准偏差吗?

总体和样本

统计学以解析数据为根基。解析数据时,须明确两个核心认知:

1.总体:

整体涵盖特定范畴内所有待考察的目标,这种概念是概括性的,仅在实施度量时才会变得明确。举例来说,若要探究大众对某个具体议题的见解,可以将全人类、爱荷华州居民,或是邻近街区住户,分别视为考察范围。

2.样本:

样本本质上就是从整体里挑选出来的一部分,目的是进行测量。之所以这样做,道理很简单,毕竟我们没有办法把所有总体的信息都收集齐全。相比之下,收集部分总体的信息要容易得多,这些被收集到的部分,就是所谓的样本。

正确性及样本容量

统计学结果的可靠性通常由样本容量的大小决定。

我们理想中的状态是,样本量能等同于全部对象,即完整搜集所有相关资料,因为样本数量偏少时,就必须借助数学推断来预估可能的走向,而数据点越多越理想,最好能形成一个庞大的整体,而非一个狭小的范围。

比如,要了解一万名初中生对《Fruit Roll-Ups》的看法,试想下能否询问到所有学生。一百万的数量太大了,要是没法完成,十万个也可以。要是还是不行,那 一万个就差不多了。

受限于时间与成本因素,多数情况下得出的研究结论仅依据抽样调查得出。

1.统计学的常识性规则:

单凭一个信息片段无法预判整体走向。单知道我偏爱巧克力口味冰糕,不能断定所有西格曼族人都爱这种口味。若去询问我家里多数成员,或许能对他们的看法形成比较靠谱的判断,或者至少能确定是否得出合理的推论。

广泛的分布图(重点!)

许多现象在生活里展现出某种规律性,或者呈现出集中的状态,这种现象只能通过《大个子》来理解,原因有很多。

最常见的分布类型有一个恰当的叫法,即“正态分布”。确实,凡是与这种分布形态不符的,都属于非正态范畴,这种情况确实有些反常(应当尽量规避)。

正态分布又名“高斯分布”,之所以这样称呼,是由于“正态”这个词给人的感觉不够严谨。

正态分布俗称“钟形曲线”,也叫做贝尔曲线,这是由于它的图形呈现出钟状形态。

bell curve(from gamasutra)

bell curve(from gamasutra)

钟形曲线的显著之处在于主体数据多聚集在中心值附近,极少数数值则出现在一些极端位置,主要是指那些特别高或特别低的数据,中间密集的数据形成了钟的轮廓,而偏高或偏低的数值则散落在钟的两侧。

我们身边存在大量实例,其分布形态近似钟形曲线。比如,若统计某个都市居民的整体身高,所得数据或许会形成正态分布。这说明,极少数人身材异常矮小,同样少数人能达到姚明的高度,而绝大多数人的身高会略高于或低于平均水平。

钟形分布同样非常适用于评估个人能力。以体育领域为例,极少数人堪称专家,相当一部分人表现尚可,少数人则明显不足,这些人通常不会被选入队伍,我便是其中之一。

其它分布图

正态分布图确实非常理想化,但它并不是我们身边仅有的分布形态,只是这种形态相对常见一些。

例如部分其它图示与博彩及游戏构造相关,只要观察掷骰子的几率示意图,这种情形下便呈现了诸如单个六面骰子情形和两个六面骰子组合情形等状况:

六号分布,源自游戏开发者杂志

D6 distribution(from gamasutra)

2d6 distribution(from gamasutra)

此刻我想说的是首张分布图根本不像钟状曲线,而次图逐步显现出钟的轮廓。

平均值

这段文字可算作全文里一段简短的插曲。这个自我关照的小片段只有一个用意:让你明白何为“平均值”。这个自我关照且略显啰嗦的小片段会默默提示你,平均值指的是一组数学平均数据。

方差和标准偏差

需要明白方差与标准偏差的含义,并且它们也包含诸多实际意义。除了有助于进行有价值的数据概括外,这两个概念还能辅助我们更合理地说明分布状况。与其表述为“多数数据点集中在中心区域”,不如采用“68.2%的样本值位于标准偏差范围内”这样的表达方式。

sigman(from gamasutra)

变异程度与标准差之间存在关联,二者均可衡量一个指标,即数据的离散状况。通俗来讲,较大的变异程度和标准差表明数据分布范围更广。例如在投掷飞镖时,我通常会得到一个数值较高的变异程度。

能够借助各类资料来推算变异性与波动幅度。本应在此呈现一个公式,然而这有悖于“不似教材”的准则。因此不列示方程,仅以文字说明如下:

标准偏差衡量数据集中各数值与整体均值的离散程度,用希腊字母σ(sigma)来表示该指标。

比如,你选了100个人来玩你的新游戏第一关,记录下他们每个人完成关卡的时间。假设所有时间的平均数是2分30秒,标准差是15秒。这个标准差说明游戏过程中有聚集现象。也就是说,通常情况下,每个人的游戏时间都落在2分30秒上下0.25分钟的范围里。由此可见,这个数值相当稳定。

这代表什么原因你如此在意这个数据?回答十分明了。假如你得到的是另一个数据,而非前者:

平均值=2.5分钟(如上)

σ=90秒=1.5分钟

因此我们现在的均值一致,但方差不同。这些数据反映出玩家游戏时长差异显著。90秒的游戏时长偏离了平均游戏时长。由于游戏时长为2分半钟,这种偏离程度过高!从多种设计角度出发,出现这种较大的数值偏差并非设计者的初衷。

倘若提及的游戏时长为15分钟,且其波动幅度为90秒,即1分30秒,那么这种差异将更为显著。

用单个标准差就能评估稳定性。标准差与平均值的比值得出相关数据。比如第一个情形,15秒除以150秒等于10%,第二个情形,90秒除以150秒等于60%。显然,60%的标准差确实太高了!

然而并非意味着数值分散程度大就“必定”不好。在某些情形下,设计者从事检测活动时甚至期待出现数值分布范围更宽的情况。多数情形下确实不佳,由于这表明数据间的相异程度和波动幅度很大。

尤为关键的是,标准偏差的推算有助于揭示游戏机制、关卡设计等方面的诸多信息,具体来说,测量标准偏差可以掌握以下几方面有价值的信息。

1.玩家玩每个关卡的游戏时间

2.玩家玩整款游戏的游戏时间

3.玩家打败一个经典的敌人需要经历几次战斗

4.玩家收集到的货币数量(游戏中有一个意大利水管工)

5.玩家收集到的吊环数量(游戏中有一个快速奔跑的蓝色刺猬)

6.在教程期间时间控制器出现在屏幕上

误差

误差与统计结论关联紧密。例如盖洛普民意测验(美国舆论研究所进行的调查项目之一)每次实施时都会产生偏差,具体表现为±2.0%的浮动。由于民意调查通常通过抽样来推算总体情况,因此无法实现完全准确。若不存在任何偏差,则表明所得数据高度精确。若述说的人数超出取样数目,就必须留意偏差的或然性。

如果以全部人口为数据基础,就无需顾及偏差——因为所有资料都在手头!好比问路人偏爱象棋还是围棋,无需担忧偏差,因为询问对象就是全部数据来源。但若想用路人信息概括全镇居民的选择,就必须估算误差了。

样本规模越广,最终产生的偏差就会越少。大量数据能带来更佳的准确度。

置信区间

可以用推断统计对未来数据进行归纳分析。一个比较实用技术是计算信任界限。从理论角度讲,信任界限和标准差有紧密联系,就是借助某种数学方法来体现我们对于某个特定数值落在某个特定范围里的把握程度。

置信区间就是运用一种数学手段表达这样的意思:我们有A%的把握认为B%的数据会落在C值到D值这个范围之内。

这个说法虽然听起来有些拗口,不过我们确实需要明白,只要拥有足够的自信心,就能创造出各种价值来。比如,回想一下我之前从事的那份令人开心却并不让人满足的工作,

我先前负责过材料受力测算和飞行器构件的规划。要明白,或者不得不明白,飞行器,尤其是客运飞行器的制造,遵循着所有当代交通工具中最严苛的标准。人们总是担忧机翼会从机身分离。

飞机制造专家们通常运用的一种技术,是利用材料特性设定一个高可靠性范围,传统上,航空设计的可靠性范围称作“A基准容许度”,要求我们达到95%的把握,确保任何特定材料在应用时,其99%的性能指标都处在预先划定的参数带内,随后以此参数为基准,结合最严苛的飞行环境进行构造,最终确定一个最优化安全措施

探究具体数据数值时,区间估计是个很实用的工具。好在游戏领域不涉及性命攸关的问题,不过若要调整主机游戏,就必须在设计阶段注入更多感性因素和本能判断。通过计算区间估计,可以更明晰地了解玩家如何体验你的游戏,也能更准确地评估游戏参数是否合理。

计算置信区间时,始终适用一个替代统计原则:数据量越大越好。样本包含的数据点越多,置信区间的质量就越高。

你不可能做到100%的肯定

这便引出了另一个统计规则:

没有任何结果能够达到绝对完美程度:你永远无法构建一个完全可信的区间范围。你无法确保借助推断统计就能预知某个数据值会呈现特定数值。

冒险者在《魔兽世界》进行任务过程中,必定会遭遇死亡,需要缴纳费用,而且极难寻获终极的Yeti Hide,这是无法改变的现实,因此冒险者应当坦然面对这些情况,继续前行。

滥用

我早先说过,计算是一种险恶的本领。为了更清楚地说明理由,我创作了这首类似子弹的恋爱诗。

十四行诗1325:值得称赞的记录,使我逐一列举出我对你诸多不当的行径:

1.误解

2.未明确置信区间

3.只因为不喜欢而丢弃了有效的结论

4.基于有缺陷的数据而做出总结

5.体育实况转播员的失误——混淆了概率和统计错误

6.基于一些不相干元素做出总结

误解

人们一直在误解统计报表。我知道,这一点让人难以置信。

未明确置信区间或误差

可信范围和偏差是数据里很关键的构成部分。最近三十天里,有43%的个人电脑用户购置了可下载的游戏,其偏差为40%,而如果表述同样的事实但偏差有2%,两者之间差异极大。一旦忽略偏差,情况就会变得非常糟糕。我们必须时刻清楚,样本量小意味着偏差高。

只因为偏见而丢弃了有效的结论

运用得当,数字不会说谎。然而,人们总是自我欺骗。政治界常有这种情况,结论若不符合预期,人们便无视数据。焦点小组也是如此。政治领域也频繁出现误用统计结果的情况。

基于有缺陷的数据而做出总结

此类现象十分普遍,尤其在市场调研行业。统计结论常受数据来源制约。若数据本身存在瑕疵,那么分析结果便缺乏实际意义。造成数据问题的因素五花八门,既有疏忽大意,也有流程上的重大差错。采用带有误导性的提问方式,是获取能够佐证不同观点(无论你期望何种结论)的劣质信息的一种便捷途径。你更倾向选择产品X,还是劣质的产品Y?这会迅速激发对抗性回应,例如“绝大多数的消费者会挑选产品X!”

体育实况转播员的失误

体育赛事解说员堪称现代社会的巫师。他们汇集各类数据,概率以及情绪,再将其糅合在一起,从而得出一些糟糕的结论。若想见识缺乏依据的统计,只需观看一场足球比赛即可。

比如一个播报员可能会表述为A队在最终五场较量中没能有效遏制B队的攻势这样的含糊判断,指的是A队大概难以阻挡B队kaiyun官方网站登录入口,而非他们在那最后五场较量中成功拦截了B队。然而也能反过来讲——或许他们会做到,毕竟他们以前从未成功阻挠过任何对手。

然而现实情况是,完全没有足够依据来证实任何一种观点。这或许更关乎一种可能性。能否阻碍对方攻势,是否与另一方在先前对局中的行为有关联?这些或许是两个互不相关的情况,除非存在某种相互作用的条件。

然而并非所有体育竞技的结果都有不足之处。以棒球为例统计资料极为关键。统计结果有时会左右球的投掷方向或击球位置等要素。

结果最终要看资料:当资料足够丰富时,就能得到更可靠的统计分析结果。棒球能提供大量资料:每个赛季大概要进行两百多场比赛。相比之下,足球比赛的场次数要少得多。因此,分析时产生的偏差也会比较大。但我并非说统计分析对足球毫无价值,只是很难找到一些与情况相关的有效信息。

基于一些不相干元素做出总结

大家对统计材料总是存在误解,我们倾向于发现并不存在的内在联系,而不是进行对比分析。一个很典型的例证就是那个虚构的飞行面条怪物崇拜组织所写的《致堪萨斯州教育委员会的公开信》里,有一张"海盗与全球变暖"的图示。

那个网址指向一个网站,这个网站有一个关于公开信的页面,页面内容是表达某种诉求开元棋官方正版下载,诉求涉及到正义和复仇,网站本身可能存在争议,需要谨慎对待。

我们是否能够开始解答问题了?

问题1的答案—-关卡时间

这个问题的答案十分明了:你缺乏足够的数据来计算平均值。在1点24分到2点32分之间变动的数值,并不代表它们的中心点就是2分钟。(单独看这两个数据算出的中心值是1分97秒,但我们绝不能忽略其余18个数据!)你必须掌握全部20个数据才能推算平均值,而且你还需推算出标准差。

问题2的答案—-后续关卡时间

此刻你或许会感到不快,由于波动幅度太大,达到了平均水准的四成以上。这说明你的游戏中存在太多不确定性因素。另一方面也存在一些可供挖掘的隐藏条件,并且技巧娴熟的参与者能够借此提升自身表现。或者,你也能对那些缺乏操作能力的玩家施加更严厉的制约。而作为游戏开发者,你最终要处理的是这些结果,它们具有很大的不确定性,需要看它们是否达到了预先设定的标准。

问题2的答案—-标准偏差值

数据统计仅是你要使用的手段之一,你还得明白怎样设计游戏玩法。这种过于紧密的计数划分,导致我们总能得到一个很小的标准差数值,比如500除以52000等于1%,这说明你得到的分数几乎没有区别,也就是说在最终游戏过程中,玩家的不同能力并不会产生任何作用。一旦参与者意识到个人能力的增强对游戏积分的变动毫无作用kaiyun全站app登录入口,他们就会决定离开游戏。

因此在这种情况下你更期待看到较大的波动幅度,这样游戏分数才会伴随能力提升而提升。

问题3的答案—-游戏时间

这个数值相当不易获得,但它揭示了数据采集过程中的一个关键点:必须留意那些看似异常的数据。例如0.2小时就明显不合常理。这或许是印刷失误,也可能是仪器故障所致,具体原因难以断定。但是不论如何,在开展各项运算之前,你必须毫不动摇地认定0.2小时是一份有价值的资料,或者你也能够将其舍弃,然后根据其他剩余的数值进行推算。

其它有趣的内容

为了压缩文章篇幅,许多吸引人的内容被舍弃了。需要指出的是,掌握统计学知识,既能辅助改善游戏开发,也能指导购买行为、投票选择或理财规划。我愿意承担23.4%的风险,断言所谈内容中至少有40%是准确的。

设计师借助统计,可以取得有记载的游戏活动(样本)的资料,从而为未记载的游戏活动(总体)提供归纳。

在实践中学习

在我的最新游戏中,我借助记录游戏过程中的相关数据,并依据这些数据计算出的平均值和标准偏差来设计游戏中的挑战关卡。中等难度的关卡直接对应平均值,简单难度的关卡则对应平均值减去一个标准偏差的数量,困难难度的关卡则对应平均值加上一个标准偏差的数量。只要我们尽可能多地收集数据,统计分析的结果就会更加准确。

如同数学中的可能性研究,当工程规模持续扩展,数量分析的作用也会日益凸显。多数情况下,人们能够依靠实践探索,无需借助任何学术框架。然而,伴随作品体量的增加,参与者的数量增长以及资金投入的加大,就必须为遭遇一个缺乏均衡性,且全然依赖主观感受的创作过程埋下伏笔,并意识到其中必然存在的不足之处。

必须牢记,统计和概率无法替代游戏设计,它们仅能提供参考,发挥辅助效果。

游戏邦说明:该文最初发布于2007年1月24日,文中提及的事件和资料均以那个时间点为基准。

via:游戏邦/gamerboom

网友留言(0)

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。