卢卡斯·帕奎塔事件告诉我们足球数据使用(和误用)的真相
阅读5分钟

我们这些数据爱好者很少需要第二次邀请来讨论统计和分析,但当一个故事自己送上门来时,忽略它就显得失礼了。
西汉姆联队的卢卡斯·帕奎塔在7月份被足协撤销了四项操纵比赛指控,一个独立小组进行了近12周的听证会——其调查结果本周公布——指出了为期两年的调查中的漏洞,包括数据的使用,或者更确切地说是误用。
调查的一部分,足协依赖于数据公司Stats Perform旗下的Stats Perform Integrity Services (SPIS)提供的对四场可疑比赛的分析。他们的职责是支持客户和其他利益相关者识别并采取行动打击操纵比赛的行为,特别是那些与比赛博彩相关的行为。
通过使用Opta衍生指标,该分析着眼于帕奎塔在每场比赛中犯规次数、防守对抗次数和尝试铲球次数——将这些数字与他的赛季平均值进行比较,以标记与他收到的黄牌数量相关的任何可疑行为。
联赛投资于提高体育运动诚信的工具是一件好事,SPIS的分析使用定量和定性信息为每个事件提供诚信评级指数(1-4)内的分数。
围绕少量孤立的数据点(如铲球和对抗次数)建立案例,很可能注定是有缺陷的,破坏了最初使用数据的过程。数据咨询公司MRKT Insights在案件审理期间批评了该分析,提供了低概率事件是足球比赛常见组成部分的例子。
在一种流畅、低得分的“入侵”式运动中,很难使用数据作为客观衡量标准来确定单个球员的影响。当帕奎塔无法控制的因素如此之多时,要推断这些行为中的因果关系或意图就更加困难,是不可能的。
对手的比赛风格是什么?当时的比赛状态如何?西汉姆联队在那场比赛中的控球率是否较低?在球队控球率较低的比赛中,自然会发生更多的铲球和犯规,有更多的机会做出这些防守动作。
比赛是建立在球员和裁判的失误之上的,以对英超联赛有一个专门的“裁判麦克风”节目,由PGMOL首席运营官霍华德·韦伯负责讨论周末比赛中最近发生的事件。
在帕奎塔的案件中还有更多的例子,但其原则与更广泛的足球数据使用有关。
正如委员会的观点中所描述的那样,挑选统计数据来迎合某种叙事——一种确认偏误的形式——是危险的,破坏了负责任的统计分析应有的严谨性。
有责任不为使用数据而使用数据,是要确保分析能够经受住适当的审查和尽可能科学的严谨性。我们都可以使用数据,但以一种提供有意义、可靠见解的方式来解读数据,才能看到你获得的最大收益。
在The Athletic,我们是“小样本量”警钟的狂热爱好者——但在新的国内赛季的最初几周,这一点尤其重要。
统计数据在更广泛的足球讨论中被使用的频率似乎正在上升,这应该值得庆祝。数据的民主化是一件好事。
使用数据来追溯叙事或在三场比赛后对球员或球队的表现进行耸人听闻的描述是充满缺陷的。可悲的是社交媒体奖励这些旨在引发参与的耸人听闻的观点——通常是为了经济回报。
你足够努力地寻找,可以使用孤立的统计数据作为攻击球员的棍子。你也可以使用其他数据让他们像是潜在的金球奖得主。
我自己在学术研究方面的职业背景要求我们在分享我们的统计结果和发表报告之前,需要不同程度的严谨性。通常需要一个同行评审过程,该领域的多个专家在出版成为可能之前对分析提供反馈。
在该报告中需要承认分析的局限性。在概述从开始到结束的整个过程时,必须考虑背景、警告和批判性思维。这不是说一种方法比另一种方法更好或更坏;即使是最科学的方法可能仍然无法提供明确的结论。
世界是混乱的,是模糊的,是泥泞的——有时事情不像我们希望的那样清晰。在一个我们许多人寻求即时满足和“黑白分明”答案的时代,事实是事情往往更加灰色。
可以理解为什么一些球迷对足球数据的使用表示鄙视。当孤立的统计数据在媒体上呈现时没有背景信息时,我们完全有理由得出结论,即数据对对话没有任何有价值的东西。
这种方法不能代表俱乐部数据部门正在进行的高级工作。在其他角色中,有许多令人难以置信的数据工程师、数据科学家和数据分析师使用先进的研究方法来为他们的俱乐部成功的机会提供真正的见解。
球迷了解足球分析的唯一窗口是屏幕上闪烁的没有背景信息的统计数据,他们可能会认为数据毫无用处。他们看到幕后存在的复杂分析,他们的观点可能会改变——即使这些分析被适当地保密以维持俱乐部的竞争优势。
我们生活在一个数据和技术的时代,人工智能(AI)、大型语言模型(ChatGPT、Google Gemini、Grok)和机器学习正在成为社会中越来越多使用的流行语,即使我们并非都完全理解它们的含义。
它们也有盲点——这没关系。关键是在根据你获得的信息形成结论时承认这一点。
这让我们回到了帕奎塔的案例中的分析。仅仅因为使用了数据不意味着一定能提供可靠、负责任的见解。