首先这篇文章偏专业,致力于探索竞彩足球的兄弟姐们可以收藏起来慢慢研究,一旦研究通了,你就打开了高纬度的大门...
很多人看足球分析,最容易被一句话吸引:
最近10中8。
一看这个成绩,很多人第一反应就是:
这个人厉害,这个模型很准,这个方向值得跟。
但问题是,最近10中8真的能说明水平吗?
不一定。
因为足球比赛本来就有很强的随机性。
10场比赛样本太少,短期结果很容易被运气放大。
一个真正长期水平一般的方法,短期也可能突然10中8。
一个长期水平不错的模型,短期也可能10中3。
这就是很多人看足球预测时最容易踩的坑:
把短期波动,当成长期能力。
要理解这件事,就必须明白量化里一个很重要的概念:大数定律。
本文只讨论足球数据分析和概率研究,不构成任何比赛建议,也不鼓励任何形式的购彩或博彩行为。
一、什么是大数定律?先别被名字吓住
大数定律听起来很数学,其实意思很简单:
一件有固定概率的事情,重复次数越多,最终结果越容易接近真实概率。
比如抛硬币。
一枚正常硬币,正面和反面的概率都是50%。
但如果你只抛10次,结果可能是:
正面3次反面7次这时候正面率只有30%。
你能说这枚硬币有问题吗?
不能。
因为10次太少。
如果你继续抛到10000次,结果可能是:
正面4986次反面5014次正面率就是:
49.86%这就很接近50%。
这就是大数定律最直观的意思:
次数少的时候,结果容易乱跳;次数多了,比例才更稳定。二、注意:不是“前面输了,后面就该赢”
很多人会把大数定律理解错。
比如前面连续错了几场,就觉得:
后面应该要对了吧?
这个想法是错的。
如果一个事件本身概率是50%,前面连续5次没出现,第6次的概率还是50%。
它不会因为前面没出现,后面就自动变成80%。
这就像抛硬币。
前面连续5次都是反面,第6次正面的概率仍然是50%。
硬币没有记忆。
足球比赛也不会因为你前面错了几场,就自动帮你“补回来”。
大数定律真正说的是:
样本越来越多时,前面那几次异常结果,对整体结果的影响会越来越小。
比如前10场只中了3场,命中率是30%。
如果后面又有990场,整体表现接近真实水平,比如中了594场。
那么总结果就是:
前10场:中3场后990场:中594场总共1000场:中597场总命中率:59.7%你看,前面那10场没有被“补回来”。
只是后面的样本太多,把前面的小样本异常冲淡了。
这点非常重要:
大数定律不是结果补偿,而是小样本异常被大样本稀释。三、为什么“近10中8”不能证明长期能力?
因为10场太少。
假设一个模型长期真实水平是55%。
也就是说,如果同类比赛足够多,100场大约能中55场。
但如果只看最近10场,它可能出现很多种情况:
10中810中710中610中510中410中3这些都可能出现。
所以,最近10中8,当然好看,但不能直接证明模型长期厉害。
同样,最近10中3,也不能马上证明模型废了。
短期比赛里,运气成分太重。
足球尤其明显。
因为一场比赛可能被很多偶然因素改变:
红牌点球VAR折射门将失误临场伤停强队轮换天气变化一张红牌,就可能改变整场比赛。
一个点球,就可能改变最终赛果。
一次门将失误,就可能让模型判断完全失效。
所以,足球预测不能只看最近几场。
更应该看:
过去100场怎么样?过去500场怎么样?过去1000场怎么样?平均赔率是多少?最大回撤是多少?不同联赛是否稳定?不同赔率区间是否稳定?这才是更接近量化的看法。
四、再用骰子举个例子
掷一个公平骰子。
每个点数出现的概率都是:
1/6,大约16.67%如果只掷6次,结果可能是:
1点:0次2点:2次3点:1次4点:0次5点:1次6点:2次这很正常。
你不能因为1点没出现,就说骰子有问题。
如果掷6000次,结果大概率会接近:
1点:约1000次2点:约1000次3点:约1000次4点:约1000次5点:约1000次6点:约1000次不会刚好每个都是1000次,但会比较接近。
这就是样本数量的意义。
样本太少,什么结果都可能乱跳。
样本足够大,规律才更容易显出来。
五、餐馆一天亏钱,不代表这家店不赚钱
换个生活例子。
一家餐馆,长期数据是:
平均每天收入:5000元平均每天成本:4200元平均每天利润:800元这家店长期是赚钱的。
但它会不会每天都赚800元?
肯定不会。
某天下大雨,客人少:
收入:3000元成本:4200元利润:-1200元这一天亏了。
但你不能因为这一天亏,就说这家店不行。
过几天赶上节假日,人很多:
收入:9000元成本:5000元利润:4000元这一天又赚很多。
所以判断一家店好不好,不能只看一天。
要看:
30天90天半年一年足球模型也是这样。
一场错了,不代表模型没用。
几场连错,也不一定代表模型崩了。
真正要看的是长期同类样本。
六、保险公司为什么敢做保险?
保险公司也靠大数定律。
对一个人来说,今年会不会出事故,很难预测。
但对100万人来说,保险公司可以比较稳定地估计:
大约多少人会出险平均赔付是多少总赔付成本是多少保费应该怎么定单个人是随机的。
一大群人就有统计规律。
足球量化也是一样。
单场比赛很随机。
但同类比赛多了,就可以统计规律。
比如某类比赛:
模型主胜概率在55%-60%赔率区间在1.80-2.10主流联赛没有明显伤停没有明显轮换单独看一场,不能保证结果。
但如果历史上有3000场类似比赛,就可以看:
实际主胜率是多少?平均赔率是多少?回测是否为正?最大回撤是多少?不同赛季是否稳定?这才是量化真正关心的东西。
七、足球为什么尤其不能只看单场?
因为足球进球太少。
篮球一场有很多回合,强弱差距更容易体现出来。
足球不一样。
一场比赛可能就1个球、2个球。
比如:
1-01-12-10-02-0这种比分太常见了。
一次点球,一张红牌,一次折射,可能就改变结果。
假设模型给出:
主胜概率:58%平局概率:25%客胜概率:17%这说明主队占优。
但不代表主队一定赢。
因为主队不赢的概率仍然有:
25% + 17% = 42%也就是说,即使模型完全正确,主队没赢也很正常。
所以不能这样判断:
主队赢了:模型真准主队没赢:模型真差正确的看法应该是:
所有模型给主胜55%-60%的比赛,历史实际主胜率是不是也接近55%-60%。
如果模型长期说58%,实际结果也接近58%,说明模型概率比较靠谱。
如果模型长期说58%,实际只有48%,那就说明模型高估了主胜。
这才是看模型水平的方法。
八、什么叫“接近期望”?
假设有一个简单游戏:
60%概率赚1元40%概率亏1元每次的数学期望是:
0.60 × 1 + 0.40 × (-1)= +0.20元这句话是什么意思?
不是说你玩一次就赚0.20元。
你玩一次只有两种结果:
赚1元亏1元0.20元是长期平均值。
如果只玩10次,理论期望是:
10 × 0.20 = +2元但实际可能是:
中4次,错6次结果 = -2元短期亏损完全正常。
如果玩10000次,理论期望是:
10000 × 0.20 = +2000元实际可能是:
中5980次错4020次结果 = +1960元这就比较接近理论值了。
所以,正期望不是保证下一次赢。
它的意思是:
重复足够多次后,平均结果更容易向正方向靠近。九、为什么优势要靠次数体现?
可以这样理解:
正期望是信号,随机波动是噪音。
如果一个方法每次平均优势只有5%。
做10次,理论优势只有:
10 × 5% = 0.5个单位这个优势太小。
随便几场波动,就能把它盖住。
做100次,理论优势是:
100 × 5% = 5个单位优势稍微明显一点,但还是可能被短期波动影响。
做10000次,理论优势是:
10000 × 5% = 500个单位这时信号就大了。
波动还在,但不容易长期完全盖住信号。
所以量化不是靠“下一场一定准”。
它靠的是:
每一次都站在一点点概率优势的一边,然后重复足够多次。
这就是普通看球和量化思维最大的差别。
普通人容易盯着今天红不红。
量化看的是长期样本里有没有优势。
十、EV 和大数定律是什么关系?
EV 是期望值。
大数定律解释的是:
为什么重复次数多了,实际平均结果会更接近期望值。
举个简单例子。
某类机会:
真实概率:55%赔率:2.00每次投入1个单位。
命中赚1个单位,没中亏1个单位。
EV 是:
0.55 × 2.00 - 1 = +0.10意思是:
每次理论平均 +0.10 个单位。
但如果只做10次:
理论优势:+1个单位太小,完全可能被波动盖住。
如果做1000次:
理论优势:+100个单位优势开始明显。
如果做10000次:
理论优势:+1000个单位只要真实概率确实接近55%,长期结果就更容易向这个方向靠近。
所以可以这样理解:
EV告诉你长期平均值是多少。大数定律解释为什么长期重复后会接近这个平均值。十一、但正EV也不是万能的这里一定要说清楚。
正EV不是护身符。
它至少有几个前提。
第一,概率必须接近真实概率。
如果你以为概率是55%,但真实概率只有45%,那就是假正EV。
比如赔率2.00。
你以为:
0.55 × 2.00 - 1 = +10%但真实情况是:
0.45 × 2.00 - 1 = -10%结果完全相反。
第二,样本必须足够大。
+3%、+5%、+8%这种优势,短期很容易被波动盖住。
第三,样本必须可比。
不能把英超、巴甲、小联赛、杯赛、友谊赛全部混在一起,然后说这是同一种策略。
第四,风控必须能承受回撤。
即使一个方法长期有优势,也可能短期连续错。如果单次风险太大,还没等长期优势体现出来,就已经出局了。
所以完整逻辑应该是:
概率要准样本要多样本要同类回测要完整风险要可控缺一个都不行。
十二、为什么模型要做概率校准?
大数定律有一个前提:
你说的概率要接近真实概率。
如果模型说主胜60%,但历史上这类比赛实际只赢了48%,那模型就不靠谱。
所以要做概率校准。
概率校准就是验证:
模型说60%的事情,历史上是不是真的大约发生了60%。
比如把历史比赛按模型概率分组:
模型主胜40%-45%模型主胜45%-50%模型主胜50%-55%模型主胜55%-60%模型主胜60%-65%然后看每组实际主胜率。
如果结果大概是:
模型平均42%,实际约42%模型平均48%,实际约48%模型平均53%,实际约53%模型平均58%,实际约58%模型平均63%,实际约63%说明模型比较校准。
如果模型平均58%,实际只有47%,那就说明模型高估了主胜。
这时再用它算EV,就会出现很多假正期望。
所以,足球量化不是只会给概率。
更重要的是:
这个概率有没有被历史验证过。十三、天气预报也是同一个道理
天气预报说:
明天下雨概率70%这不代表明天一定下雨。
如果明天没下雨,也不能马上说天气预报错了。
正确的验证方式是:
找出所有预报下雨概率70%的日子,看实际下雨比例是不是接近70%。
如果1000个“70%降雨概率”的日子里,实际下雨698天,说明预报很准。
如果只下雨430天,说明预报严重高估。
足球模型也是一样。
模型说主胜60%,不是保证这场主胜。
正确验证方式是:
所有模型说主胜60%左右的比赛,实际主胜率是否接近60%。
这就是概率模型和普通预测的区别。
普通预测给一句结论。
概率模型要接受长期验证。
十四、为什么要看“同类比赛”?
大数定律不是把所有东西乱放在一起统计。
样本要有可比性。
这些比赛不能简单混成一类:
英超强强对话日职中游球队巴甲客场杯赛轮换友谊赛国家队比赛保级大战欧战后联赛它们的概率结构完全不同。
同样是“主胜55%”,放在不同联赛、不同赛制、不同赔率区间里,含义可能不一样。
所以真正的回测应该分层看:
主流联赛 vs 小联赛联赛 vs 杯赛低赔率 vs 中赔率 vs 高赔率热门方向 vs 冷门方向有风险标签 vs 无风险标签主场优势明显 vs 主场优势不明显这样才知道模型在哪里有效,在哪里容易失真。
这也是足球量化真正有价值的地方:
不只是给你一个概率,而是告诉你这个概率在历史同类样本里站不站得住。十五、别神化单场,也别迷信短期战绩
很多人看足球预测,容易走两个极端。
今天中了:
模型太神了。今天错了:
模型没用了。其实都太快了。
如果模型给主胜58%,结果主队没赢,这不一定说明模型错。
因为58%的事件,本来就有42%的概率不发生。
真正该问的是:
模型给58%的比赛,长期实际是否接近58%?同类信号历史表现怎么样?模型有没有系统性高估?风险标签有没有漏掉?市场概率是否支持?单场是噪音。
长期样本才是信号。
十六、普通人只要记住这5句话
第一,小样本看运气,大样本看规律。
第二,大数定律不是结果补偿,而是小样本异常被大样本稀释。
第三,正EV不是下一场一定赢,而是长期平均值在正方向。
第四,EV能不能成立,关键看模型概率是否接近真实概率。
第五,没有回测和概率校准,就谈不上真正的足球量化。
十七、最后说回足球量化
足球比赛永远有不确定性。
量化不是把足球变成确定答案。
它能做的是:
承认单场随机性计算长期概率验证历史样本比较市场定价识别风险标签持续修正模型大数定律真正告诉我们的,不是“下一场该中了”。
而是:
不要被一场比赛骗,也不要被最近几场战绩骗。真正有价值的,是大量同类样本里的长期规律。
如果你想看具体比赛的数据分析和量化复盘,可以在搜索引擎搜索:
稳狗足球特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.