当梅西遇上数据科学足球比赛结果可预测吗?

更多精彩尽在这里,详情点击:http://wswjz.com/,南安普顿

近日,梅西6度捧得金球奖的消息,引爆“迷妹迷弟朋友圈”,连小芯这个不咋关注足球(都怨国足)的门外汉都被小伙伴们科普的略知一二,南安普顿开始对梅西这个男人产生好奇与好感。

那么问题来了。 如果你是一个足球迷,你会宁死也要让梅西加入自己的球队。那样你就会赢得冠军吗?他的加入至少能避免降级吗?由于梅西不能加入每个人的球队,所以这里选择使用数据和模拟来推断答案。

EA 体育的Fifa数据集是球员特征的代表,而TDA(拓扑数据分析)是模拟每场比赛结果概率的基础。通过对这些概率的模拟,可以得出英超联赛最有可能的最终排名。

该模型可以让你组建自己的团队,并衡量团队年底在排行榜上的位置。可以自己使用这个模型,在这里我们会提供python代码,还会有比赛场次、赔率、 tda 特性、球员统计、球员姓名数据(原始数据)。

假设1:足球比赛的结果仅取决于场上球员的特定属性和综合属性。 大多数教练不会同意这一假设,因为我们忽略了诸如团队精神、天气、周疲劳值、受伤情况、黄牌/红牌、换人、战术、球员的个人承诺、赛季时间、球迷的特殊承诺以及许多其他可能影响比赛结果的内外因素。

沃尔特·马扎里(Walter Mazzari),前沃特福德经理,2014年在国际足球联合会上,说过一句经典之语:“我们踢得很好,但却开始下雨了”。(资料来源:)

无论是球员、教练、球迷、乘务员、替补还是园丁,都知道在预测比赛结果时,要考虑的信息远比可以记录的信息量大。看台上传来疯狂的尖叫,裁判吹响的错误哨声,或者午餐菜单上的虾,都可能会影响比赛的整体结果。一些受尊敬的科学家声称足球只是随机事件,想预测结果就像证明费马大定理一样困难(费马大定理还有129页的数学证明呢)。

安德鲁·怀尔斯教授在1994年证明了费马大定理。358年后,我们终于有证据证明“当n大于2时,x^n + y^n =z^n方程没有整数解,除非xyz=0”。那么会有人能够找到预测足球比赛结果的方法吗?(资料来源:)

要知道,没有哪个预测模型能够精准地预测足球比赛结果,我们想看看拓扑数据分析的不可知论方法能否在团队七个聚合属性的极小集合中识别出相关模式。

用EA数据集给每个玩家的24个属性来设计攻击和防御特性。初始属性相关矩阵给出了设计特性的方向。为了给整个团队生成特性,基于初始匹配组合构建以下7个特征:

基于过去6个英超赛季的2591场比赛,我们设计了一个模型来估计每场比赛结果的概率。在第14/15赛季的380场比赛中进行测试,并对最终排行进行模拟。

2011年12月31日,弗格森爵士即将70岁,曼联在老特拉福德对阵布莱克本流浪者队,流浪者队是排行榜上的最后一名。在两队的上一场比赛中,流浪者队以7比1惨败。那天晚上,那些期待弗格森团队再次展示实力的人们感到非常惊讶。以2比0领先的布莱克本流浪者队在最后10分钟打进制胜球,以3比2结束了比赛。 那天晚上,赌场里幸运的赌球者以28:1获胜。

流浪者队后任队长格兰特·坎贝尔·汉利在老特拉福德踢进了胜利的一球。当时这位苏格兰后卫只有20岁,他在2016年以183次出场和8个进球的成绩离开了布莱克本。(资料来源:

不幸的是,这场在老特拉福德的奇迹并没有让布莱克本流浪者队免于降级。另一方面,从长远来看,这个分数对曼联红魔队来说是致命的。那天晚上错过的机会导致了难以置信的平局。曼城和曼联都以89分结束了赛季。由于一个更好的进球差异,曼城赢得了奖杯,让曼联尝到了苦涩的余味。

尽管这一结果对曼联来说似乎是不可预测的,但拓扑结构明确区分了这场与布莱克本的比赛和与同级别球队的对抗。例如,我们认为曼联对阵西布朗和曼联对阵博尔顿是在同一赛季。

先来试着理解为什么我们的比赛如此特别(这样就可以计划下一次去赌场)。可以做的第一件事就是研究比赛的空间,比赛是14维空间中的一个点(记住每个队有7个特征,一场比赛有7+7=14个特征)。我们使用主成分分析(PCA)的前两个成分,围绕我们认为的每场比赛,以此来可视化相似的比赛。

二维PCA:曼联vs西布朗 3–0,曼联vs博尔顿 2–0,曼联vs布莱克本 2–3

这三个图可以预测描述两场比赛中的14个特征,并且这种预测会丢失信息。用TDA从原始空间中恢复和可视化结构。使用的工具是一个持久性图(在Giotto可以找到!)。持久性图是数据集在点的连通性方面的再现,是通过逐步连接相邻点并测量构造的同源性而获得的。这是一种从数据中理解、可视化和提取特征的新方法。如果想了解更多关于TDA的信息,推荐阅读这篇文章。

持久性图:曼联vs西布朗 3–0,曼联vs博尔顿 2-0,曼联vs布莱克本2-3

这三个持久性图是在与PCA相同的点上计算的。图中的点不再指比赛,而是描述了原始空间中点与点之间的关系。在此例中,它描述了三场比赛周围点云的形状。

从前两张图中,可以看到所有连接的组件(由橙色点表示)都集中在y轴的[5,10]区间。此外,循环(由绿色点表示)集中在方框[6,8]x[6,8]中,它们到y=x的最大距离为1。

在上图中,橙色点更加分散,极值点(0,17)表示与数据集其余部分连接较晚的组件。最重要的是,绿色点在y=x线上分布得更广,总体上更接近这条线。

第三副图的结构暗示了一个异常值 事实上,橙色点(0,17)代表曼联-布莱克本与其他比赛之间的融合。这意味着这场比赛比PCA图中显示的要远。

持久性图很棒,但是不能直接输入到预测模型中。需要知道如何将持久性图转换成模型的特性。

共享的Python Jupyter Notebook中包含有关于如何从持久性图中提取特征的更详细解释。

个人比赛的模型是经过训练的:我们现在准备运行一些关于整个赛季的模拟。可以选择一个阵容,看看他们能在这一赛季走多远。为了对这一模式进行测试,我们研究了梅西转入每个英超球队会造成的影响。

有梅西的队伍,降级的几率平均下降12%,获奖的几率平均增加4%,进入前4名的几率增加14%。最需要梅西的球队是女王公园巡游者队,有了梅西,该队的排名将上升11位。莱斯特城队最初以72%的模拟率排在第14位,梅西加入后,将有资格进入冠军联赛。

模型评估 排行榜模拟的质量直接反映了模型预测比赛结果的准确性。对持久性图中的14个特征使用随机森林分类器,并根据一些基线预测策略测试模型框架:

结果证实:足球比赛是随机的。就连博彩公司的赔率也只能对53%的比赛做出正确的预测。

结果与下注赔率给出的结果相当,两者有着惊人的相关性。这很有趣,因为模型依赖的数据过于简单。我们的模型具有不寻常的预测绘制的能力(占总结果的27%)。

该模型可以很好地概括其他年份和其他锦标赛的数据。在没有“看过”意大利比赛的情况下,同样的模型在预测2015/2016赛季意甲比赛时的准确率达到了52%。这对于像Elo评级这样的团队特定策略来说是不可能的。

也许该模型的最佳属性是在构建和测试团队方面十分灵活。我们不仅可以混合队伍,模拟冠军,还可以做出明智的转会决定。基于固定的预算,可以根据成本和收益来优化最佳的球员组合。

莱昂内尔·梅西自2011年起就在巴塞罗那踢球,也许现在是时候加入其他球队了 图源:新浪体育

我们试图为一个复杂的三元分类问题找到简单的解决方案。南安普顿拓扑模型在非常有限的特征上实现了很高的准确性,尽管这一模型不太灵活,但还是可以与普通的方法相当。 我们已经在梅西身上尝试过了,接下来想试试罗纳尔多,他会表现得更好吗?

发表评论

电子邮件地址不会被公开。 必填项已用*标注