找回密码
 立即注册
搜索

本文来自

世界杯资讯

世界杯资讯

人已关注

请添加对本版块的简短描述

精选帖子

【俄罗斯世界杯】“”讲真,C罗的点球只算中上等?” -- 什么是真正的数据分析

[复制链接]

3514

主题

3516

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
12512
1360 admin 发表于 2018-6-12 09:54:16
“”讲真,C罗的点球只算中上等?” -- 什么是真正的数据分析由  logoi/在 /22300620.html 帖子中,楼主用点球命中率提出C罗的点球只算中上等很多jr们提出了,不能抛开罚球数讨论命中率,下面我来用数学分析一下,为什么“不能抛开罚球数讨论命中率”我不知道我写的这些有多少人能看懂,不过我是做深度学习的,这个问题正好是我的专长讨论一个点球进不进,是 一个binomial model.我们想要的结果是一个球员罚点球会不会进,p(goal | data), 这个意思是the probability of goal given observed data。就是当这个球员罚下一个点球时,他有多少概率会罚进?根据已知数据推测未来问题,这才是我们想要的那个楼主给出的,简单的通过p(goal | data) = 命中数/总数,这是这个model的maximum likelihood estimation。 可是根据这个结论,如果一个球员只罚过一次点球,丢了,那么得出当这个球员罚下一个点球时,罚进的概率是0.大家也发现了,这是一个不准确的预测。一个更加准确的estimation是这个model的 maximum a posterior estimation(MAP)。它会考虑一个prior knowledge,就是罚点球这个事有多难?如果这个事非常难,正常人罚一百次平均只能进一次,那么即使你1中1,那你再罚进一个球的概率还是很低. 反之正常人罚一百次平均能进99次,那么即使你1中0,那你再罚进一个球的概率还是很高。正常人罚点球的概率叫做prior。通常我们assume prior是有一个beta distribution: beta(a,b).这个是所有人点球的数据分布,两个parameter a和b可以通过所有人的数据得出。上图是a = 25, b=10 的beta distribution。这个参数是我自己根据印象设的:所有人的平均命中率大概在72%左右,超过90%和低于50%的都非常少,大家看看符合你们的预期吗。我这个参数并不准确,只是提供一个思路。欢迎有时间的人用所有的数据算一下。具体我就不展开了,时间不够打不过来,直接上结论,“就是当这个球员罚下一个点球时,他有多少概率会罚进?”这个问题的MAP estimation为:(命中数 + a) / (总数 + a +b)根据我的参数,重新调整的“当这个球员罚下一个点球时,他有多少概率会罚进?”A球员 1/1: (1+25)/(1+25+10)= 72.2%B球员 0/1: (0+25)/(1+25+10)= 69.4%C球员 100/100: 92.5%D球员0/100: 18.5%亚亚图雷 15/15: (15+25)/(15+25+10) = 80%莱万 37/41: (37+25) / (41+25+10) = 81.5%伊布 69/79: (69+25)/(79+25+10) = 82.4%c罗 103/122:(103+25)/(122+25+10)=81.5%梅西 78/101: (78+25)/ (101+25+10)= 75.7%有心人可以把那个列表都算一下一个好的模型是要能跟实际相符的,数据是不会骗人的,有时候你觉得数据不符合常识,那只是因为数据分析方法不够好PS感谢之前的楼主,把他的结果根据我的模型重新算了一下
64人推荐:
现在足球数据技术帝越来愈多啦
可以的,那个贴我也看了,确实结论下的太草率
喜欢楼主最后一句话如果数据不对,肯定是我打开数据的方式不对(手动滑稽)
顶一个,虽然参数是楼主自己设的,但是这个算法确实比单纯的计算命中率靠谱一些。
我也不是搞这块的 提一些肤浅的意见用不同的estimation是不是要考虑sample size 点球这件事肯定不算是小样本 但是几十个数据肯定也算不上是大样本
支持那个帖子就是拿excel列数据进去 C罗100多个点球跟人家3 40个点球的比命中率...
我把那位樓主的數據OCR了出來(只考慮現役,共98名球員),然後按樓主的思路分析了下。如果用a=25, b=10的prior的話,那麼羅哥顯然是頂尖水平(只有萊万和伊布比他高),historgram如下: 但是用MAP也有問題,因爲轉化率本身方差不高,加上大部分球員樣本太少,導致排名對prior的選擇比較敏感(如樓上說還有selection bias的問題)。如果用method of moment去擬合hyperparameters的話得出a=12.37, b = 3.29(對應的p=0.79,查了下五大聯賽轉化率好像在0.75上下),那麼C羅一下掉到20名左右了:結論:數據不足……
我也不是搞这块的 提一些肤浅的意见用不同的estimation是不是要考虑sample size 点球这件事肯定不算是小样本 但是几十个数据肯定也算不上是大样本当一个球员的罚球数和所有球员的罚球数(我们用来计算prior)很接近的时候,ML 的效果要比MAP好。但是在我们这里,所有球员的罚球数(我们的经验)是远远大于一个球员的罚球数的,所以MAP会有一个更好的结果
点球和nba罚球一样 完完全全可以用数据来判断完全不一样,足球还有门将守门,高水平的门将肯定会降低命中率。无视门将这项变量来比较点球命中率是不合理的。同理还有开场的点球和加时赛没体力时罚点球的情况又是一组变量。况且样本总数存在很大的不同。因此,几组数据的假设前提不同,又没有这些变量加权调整,单纯拿个体除以总数得出的结论是不严谨的,可能跟实际情况有偏差。
现在足球数据技术帝越来愈多啦
可以的,那个贴我也看了,确实结论下的太草率
喜欢楼主最后一句话如果数据不对,肯定是我打开数据的方式不对(手动滑稽)
我也不是搞这块的 提一些肤浅的意见用不同的estimation是不是要考虑sample size 点球这件事肯定不算是小样本 但是几十个数据肯定也算不上是大样本
顶一个,虽然参数是楼主自己设的,但是这个算法确实比单纯的计算命中率靠谱一些。
数据帝啊,不懂……
我也不是搞这块的 提一些肤浅的意见用不同的estimation是不是要考虑sample size 点球这件事肯定不算是小样本 但是几十个数据肯定也算不上是大样本当一个球员的罚球数和所有球员的罚球数(我们用来计算prior)很接近的时候,ML 的效果要比MAP好。但是在我们这里,所有球员的罚球数(我们的经验)是远远大于一个球员的罚球数的,所以MAP会有一个更好的结果
点球和nba罚球一样 完完全全可以用数据来判断
点球和nba罚球一样 完完全全可以用数据来判断据我所知,至少有一家美国体育数据分析公司就是用的这个方法
这种帖子多一些多好
支持那个帖子就是拿excel列数据进去 C罗100多个点球跟人家3 40个点球的比命中率...
看不懂,不过,真TM有文化!
楼主让我想起了大学被概率论和统计学支配的恐惧
IMDb的top排名原先也是一样的道理,top评分要和平均票数和平均评分加权,不过随着印度人崛起,标准有所调整,还推出了印度专属榜单
点球和nba罚球一样 完完全全可以用数据来判断完全不一样,足球还有门将守门,高水平的门将肯定会降低命中率。无视门将这项变量来比较点球命中率是不合理的。同理还有开场的点球和加时赛没体力时罚点球的情况又是一组变量。况且样本总数存在很大的不同。因此,几组数据的假设前提不同,又没有这些变量加权调整,单纯拿个体除以总数得出的结论是不严谨的,可能跟实际情况有偏差。
怎么也算顶尖了吧
设置这种参数拉低罚得少球员命中率完全是耍流氓,要证明C罗点球能力不如去统计C罗刚罚了三四十个点球时的命中率更有说服力
设置这种参数拉低罚得少球员命中率完全是耍流氓,要证明C罗点球能力不如去统计C罗刚罚了三四十个点球时的命中率更有说服力只要能保证均值在60% -80%之间,超过90%、低于50%的样本很少,任意合理推测的参数得出的结论都会是相似的而且这个参数是可以通过数据算出来的,不是什么进球算1.5分助攻算1分这种纯粹意淫的参数,我只不过是省略了这一步而已
感觉点球这东西关键时刻不失手就行,C罗我记得重大淘汰赛从12年后就很稳
佩服,数学好的人真是惹不起
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表