直播信号

这项由香港科技大学、LIGHTSPEED及香港浸会大学联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2605.20834v1,发布于2026年5月20日。对论文全文感兴趣的读者可通过上述编号在arXiv平台查阅完整内容。
当人们谈到"让AI变得更听话、更安全"这件事,背后其实有一场旷日持久的技术探索。这篇研究揭示的,是这场探索中一个长期被忽视的裂缝——一个看起来无懈可击的理论基础,其实暗藏着一个随时可能让AI走偏的隐患。
一、从"驯服AI"说起:为什么AI对齐这么难
要理解这项研究,先得聊聊"AI对齐"这个概念。所谓对齐,就是让AI的行为符合人类的期望和价值观——简单说,就是让AI"听话"。
以大语言模型(比如ChatGPT这类能聊天的AI)为例,它们在训练完成后并不天然地知道什么叫"好的回答"。于是研究者们想出了一套叫做"基于人类反馈的强化学习"的方法,英文缩写是RLHF。这套方法的思路是:让真实的人类评估AI给出的各种回答,选出更好的那个,然后用这些"人类偏好"来训练AI,让它慢慢学会什么样的回答更受欢迎。
这套方法有效,但代价高昂。训练过程需要一个独立的"打分员"模型(称为奖励模型),还需要复杂的强化学习算法,整个流程不仅计算量庞大,而且稳定性堪忧——就像同时雇了一个打分员和一个教练,还得保证他们的评判标准始终一致,工程难度可想而知。
正因如此,一种名为"直接偏好优化"(DPO)的方法在2023年横空出世,迅速成为学术界和工业界的宠儿。DPO的核心卖点是:通过一个数学上的重新推导,完全省掉独立的打分员和强化学习过程,直接用人类的偏好数据来训练AI,而且据称在理论上与RLHF等价——也就是说,效果一样,但简单得多。
这项联合研究的出发点,就是对这个"等价"声明提出质疑。研究团队发现,DPO和RLHF之间的等价关系并不是无条件成立的,而是有一个关键前提,而这个前提在实际应用中经常被违反,却没有人认真注意过。
二、一个被藏起来的假设:数学推导中的隐形地雷
要理解研究团队发现了什么,可以用一个"厨师食谱"的比喻来理解整件事。
RLHF就像一套完整的烹饪流程:先有一位专业评审(奖励模型),他品尝每道菜后打分,然后厨师(AI策略)根据评审的反馈不断调整自己的做法,目标是烹饪出评审最满意的菜肴。这套流程严格、专业,但繁琐。
DPO则声称:其实不需要评审,直接给厨师看一堆"哪道菜比哪道菜更受食客欢迎"的记录,厨师就能自己学会做出好菜。数学上,DPO通过一个巧妙的变量替换,把"评审打分"这个中间环节彻底消掉了。
问题出在这个"变量替换"的时候。研究团队发现,这个替换成立的前提是:那个假想中的"最优厨师"(RLHF训练出的最优策略)必须本身就更喜欢食客偏爱的那道菜——也就是说,最优厨师的直觉和食客的口味必须方向一致。
用更精确的语言说:当我们有一对比较(食客更喜欢A菜而不是B菜),RLHF的最优策略必须给A菜分配比B菜更高的概率。这个条件在论文中被称为"DPO的隐含假设"。
听起来这似乎是理所当然的——一个最优的厨师,当然应该更擅长做食客喜欢的菜。但研究团队通过严密的数学推导证明,这个"理所当然"其实根本不能保证成立青岛海牛赛事分析预测。
原因在于,RLHF的优化目标有两个分量:一方面要最大化奖励(让厨师做出食客喜欢的菜),另一方面要控制厨师"偏离自己原有风格的程度"(用KL散度来衡量,确保训练过程稳定)。当参考策略(厨师的原有风格,通常是经过初步训练的模型)本身就特别不擅长做A菜时,第二个约束会把厨师拉回原点,导致最终的最优策略依然更倾向于给B菜分配更高概率——即使奖励函数告诉它A菜更好。
换句话说,当参考策略的"偏见"足够深的时候,即便是RLHF训练出来的最优策略,也可能在某些具体问题上选错答案。而DPO的整个推导建立在"最优策略一定选对了"这个假设上,一旦这个假设不成立,DPO的理论依据就出现了裂缝。
三、假设失效时会发生什么:AI悄悄走上歧途
研究团队不仅指出了这个假设可能失效,还详细分析了失效之后会发生什么,结论令人警觉。
继续用厨师的比喻。当参考厨师原本就严重偏爱B菜(参考策略的"对数概率比"δ_ref严重为负),而RLHF的最优策略因为要平衡"不偏离原有风格太多"这个约束,最终也倾向于给B菜更高概率时,DPO面临的情况就变成了:它需要最大化"学习策略相对参考策略的相对优势",而不是"学习策略对A菜的绝对偏好"。
这是两个根本不同的目标。绝对对齐要求AI学会"A比B好",相对优势只要求AI做得"比参考策略稍微好一点点"。当参考策略本身就是反面典型时,"比参考策略好一点点"可能仍然是糟糕的。
更糟糕的是,研究团队从梯度的角度分析了DPO的优化过程,发现在这种情况下会出现一种"渐进性梯度消失"的现象。DPO的训练信号(梯度)强度,由sigmoid函数控制,当策略逐渐从参考策略的错误偏好向正确方向移动时,梯度反而变得越来越弱。到最后,策略可能卡在一个"半途而废"的位置——它确实比参考策略稍好,但仍然对人类不喜欢的答案给出更高的概率,而DPO的损失函数却在持续下降,看起来训练一切正常。
研究团队给这个危险区域起了一个名字:不良解空间(U)。处于这个区域的策略同时满足两个条件:它比参考策略更偏向人类喜欢的答案,但绝对意义上仍然选错了。DPO的梯度会把策略推进这个区域,然后因为梯度消失而把它困在里面,无法逃脱。
用一个类比来理解:这就好像你在训练一个徒弟厨师,他的老师傅(参考策略)特别不会做鱼,于是你告诉徒弟"只要比老师傅做的鱼好一点就行"。徒弟努力改进,确实做得比老师傅好——但老师傅做的鱼实在太难吃,所以"比老师傅好一点"仍然是难以下咽的。而你的评估标准(DPO损失)却一直在说"进步了,进步了",给你营造出一切向好的假象。
四、到底有多普遍:这不是角落里的极端情况
有人可能会想:这种参考策略严重偏离的情况,在实际训练中有多常见呢?毕竟参考策略通常是经过初步微调的模型,应该已经有一定质量了。
研究团队在这里提供了一个令人清醒的实验数据。他们在Llama-3-8B-Instruct(Meta发布的80亿参数指令跟随模型,一个已经经过大量优化的成熟模型)上,使用llama3-ultrafeedback-armorm数据集,实际测量了DPO隐含假设的违反频率。
结果是:即使对于这样一个经过充分训练的指令跟随模型,DPO的隐含假设仍然在45.5%的偏好对上被违反。
也就是说,将近一半的训练样本,都处于DPO理论不成立的情况。这不是边缘案例,而是普遍现象。研究团队还进一步分析了原因:奖励信号对参考策略偏差的修正能力(?r*/β)均值只有0.20,而参考策略的对数概率比(δ_ref)的标准差高达46.69——意味着奖励信号远远不足以补偿参考策略的偏差。
此外,研究团队还主动制造了不同程度"刻意劣化"的参考策略来验证理论。他们分别用20%、30%和40%的"坏样本"(把偏好数据中的好答案和坏答案对调,强制训练模型学坏)来污染参考策略,然后测量假设违反率。结果显示,随着污染比例从20%上升到40%,假设违反率从52.9%上升到60.0%,与DPO性能的下降高度吻合。用DPO在这些劣化参考策略上训练,AlpacaEval 2基准上的长度控制胜率从17.23%下降到15.48%再到15.98%,始终处于低位。
这组实验清晰地验证了理论预测:参考策略质量越差,DPO的假设越频繁地被违反,实际训练效果也越差。
五、CPO登场:给RLHF装上一个保险装置
研究团队在诊断出问题之后,提出了自己的解决方案,叫做"约束偏好优化"(CPO)。
CPO的核心思路是:既然DPO的问题在于RLHF的最优策略可能"选错答案",那就直接在RLHF的优化目标里加一条硬性要求——最优策略必须对人类喜欢的答案给出更高的概率,不允许例外。
回到厨师的比喻:CPO就是在原有"做出最受食客欢迎的菜"目标之外,额外加了一条规定:无论如何,做A菜的概率必须高于做B菜的概率,不得打折扣。这条规定用数学语言描述,就是在RLHF的优化目标上增加了一个"对数概率差"的惩罚项,用参数γ控制惩罚力度。
CPO从理论上保证了一个"绝对优势":当γ足够大时,CPO训练出的最优策略一定满足"对人类喜欢的答案给出更高概率"这个条件。具体来说,γ的阈值取决于参考策略的偏差程度和奖励信号的强度——如果参考策略越偏,需要的γ越大。这个阈值有明确的数学公式,可以从参考策略的属性中计算出来。
与此同时,CPO的梯度行为也得到了根本改善。CPO的梯度中包含一个额外的边距项(γ_ref),这个边距项在参考策略偏差严重时会变得很大,从而保证即使策略处于"不良解空间"的边界,梯度依然足够强,能够把策略推过去、逃离困境。
在实现上,CPO相当优雅。每个训练样本都有一个预先计算的"自适应边距"γ_ref,它等于γ乘以参考策略对两个答案概率的倒数之和。这个边距对"难样本"(参考策略对好答案的概率非常低)自动变大,对"易样本"(参考策略对两个答案的概率都比较高)自动缩小,实现了一种自然的"难样本优先"机制。
计算这个边距只需要在训练前对参考策略做一次前向推理,之后每次迭代只需要从预计算的值中减去这个边距,几乎不增加额外计算开销。因此,CPO在实现上几乎和DPO一样简单。
六、E-CPOC:更进一步的"保守派"方案
CPO解决了DPO的核心问题,但它仍然依赖于参数γ的选取,以及用参考策略概率来近似最优策略概率这一步(即把π*(y|x)替换为π_ref(y|x)来计算边距)。研究团队在CPO的基础上,进一步推导出了一个更完备的变体,称为"保守显式约束偏好优化"(E-CPOC)。
E-CPOC的出发点是:与其像CPO那样"软性鼓励"策略偏好好答案,不如直接用硬约束强制要求——用数学上的约束优化(KKT条件和拉格朗日乘数法)来严格保证δ_π(A比B好的对数概率差)不低于某个正数γ。
这个硬约束导出了一个非常优雅的结论:RLHF最优策略的"对数概率差"可以分解为三项之和。第一项是参考策略的对数概率差,第二项是奖励差异除以β,第三项是一个自适应边距函数Φ,它由参考策略的偏差和约束强度共同决定。这个Φ函数有一个很好的解析形式,是softplus函数(一种平滑的最大值函数)。
问题在于,第三项Φ的精确计算需要知道真实奖励差异Δr,而这通常是未知的。研究团队巧妙地利用了一个单调性:Φ关于Δr是单调不增的——奖励差异越大,所需的边距修正越小。既然偏好数据要求Δr > 0,那么Φ的最大值在Δr趋近于0时取得。
于是,可以用Δr=0时的Φ值作为保守上界,得到Φ_cons。这个保守边距完全不需要奖励模型,只依赖参考策略的属性。使用Φ_cons替换精确的Φ,得到的策略的对数概率差会大于等于真实约束RLHF的最优策略,即E-CPOC是"比最优更保守"的。
从梯度加权的角度看,E-CPOC实现了一种自然的"难样本聚焦"机制。参考策略偏差越严重(δ_ref越负),Φ_cons越大,梯度权重越高,模型在这些困难样本上的学习信号越强。参考策略已经做得很好的样本,Φ_cons趋近于0,行为退化到标准DPO,避免对容易样本的过度正则化。
七、几何视角:DPO到底在优化什么"形状"
研究团队还提供了一个颇为直观的几何解读,帮助我们从另一个角度理解DPO的问题和CPO的修复。
在机器学习的排序任务中,有一类经典的"边距排序损失"。它的核心想法是:好答案的得分应该比坏答案的得分高出至少m(目标边距);如果差值不足m,就产生损失;如果已经超过m,损失为零。这就像要求两个选手之间的分差必须超过一定值才算"明显胜出"。
研究团队证明,当温度参数β趋向无穷大时,DPO实际上等价于这样一个边距排序损失,而它的目标边距正好等于δ_ref(参考策略的对数概率差)。
这个发现揭示了DPO问题的几何本质:当参考策略对坏答案更有把握(δ_ref
CPO通过引入额外的γ参数,把目标边距从可能为负的δ_ref,提升到δ_ref + 2γ/β,并且证明当γ选取足够大时,这个有效边距一定是正数。E-CPOC则通过Φ_cons函数提供了一个自适应边距,同样保证最终的有效目标边距为正,且对难样本自动给出更大的边距。
通俗地说,DPO可能在要求"坏答案允许比好答案差一点"时就停止优化,而CPO和E-CPOC始终要求"好答案必须明显优于坏答案",才算训练到位。
八、实验成果:理论落地,表现达到最优
理论分析之后,研究团队在标准基准上验证了CPO的实际效果。
实验使用Llama-3-8B-Instruct作为基础模型,用princeton-nlp/llama3-ultrafeedback-armorm数据集进行偏好对齐训练,然后在AlpacaEval 2和Arena-Hard两个基准上评估。这两个基准都是用真实用户问题评估模型的对话质量,前者由GPT-4评判胜负,后者包含更多有挑战性和区分度的复杂问题。
在AlpacaEval 2上,CPO取得了25.15%的胜率和26.57%的长度控制胜率。相比之下,DPO的胜率是24.60%,长度控制胜率是25.09%,SimPO(另一种流行的无参考策略方法)的长度控制胜率是25.91%。CPO在保持与DPO相近的平均回答长度(1879 tokens,而非用更长的回答来刷分)的同时,胜率实现了全面超越。
在Arena-Hard上,优势更为明显。CPO取得了32.6%的胜率,90%置信区间为±约2%。相比之下,SimPO是30.0%,DPO是28.9%。CPO比排名第二的SimPO高出2.6个百分点,比DPO高出3.7个百分点。研究团队指出,Arena-Hard的题目更难、更有区分度,在这个基准上的优势说明CPO对复杂问题的处理能力有实质性提升。
研究团队还额外测试了CPO在IFEval(指令跟随评估)基准上的表现,CPO取得了35.12%的严格准确率和43.99%的宽松准确率,同样优于DPO(34.01%/40.67%)、RDPO(34.57%/43.62%)和SimPO(33.83%/42.81%),验证了性能提升并不局限于对话质量,也延伸到了遵循具体指令的能力。
在超参数灵敏度测试中,γ在0.20到0.40的范围内,CPO的长度控制胜率稳定在31%到34%之间,0.25时达到峰值33.97%。低于0.20时性能明显下降,因为边距修正力度不足以应对假设违反的情况。研究团队在所有主实验中统一使用γ=0.25。
研究团队还特别对比了一个"裁剪参考策略"的基线方法——直接把δ_ref裁剪为非负值再用标准DPO训练。这种朴素方法的长度控制胜率只有23.86%,远低于CPO的33.97%,说明CPO的自适应边距机制带来的收益,远超过简单地防止负边距。
九、等价性的数学保证:E-CPOC与约束RLHF的严格等价
这项研究在理论层面还提出并证明了一个重要的等价定理,建立了E-CPOC与显式约束RLHF之间的严格对应关系。
这个等价定理(论文定理L.17)的成立只需要四个条件,而且都是标准且温和的。第一,偏好数据服从Bradley-Terry模型,即人类偏好可以用一个潜在的奖励函数通过logistic函数来建模——这是整个RLHF领域的标准假设。第二,策略函数类的近似误差(模型能力的有限性)在合理范围内。第三,训练数据是有限但足够多的独立同分布样本。第四,训练得到的策略在对数概率差空间中足够接近类最优策略——用均方误差(l?)来度量,而不是要求每个样本都精确(逐点误差l∞)。
第四个条件表面上难以验证(因为涉及到未知的类最优策略),但研究团队通过一个"损失-误差桥接命题"(Proposition L.3)解决了这个问题:当训练损失与最优值之间的差距ε_loss很小时,只要偏好数据不退化(每个样本的偏好概率不等于0或1),就可以推导出l?-δ接近性成立,且对应的误差上界ε_opt,2 = √(2ε_loss / (β? κ?)),这个界与数据集大小N无关。这意味着,从训练过程中直接观测到的损失值,就可以验证等价定理的条件是否满足。
等价定理的核心结论是:E-CPOC的最优策略给好答案分配的概率,一定大于等于真实约束RLHF最优策略的概率,对任意正的奖励差异Δr*均成立。换句话说,E-CPOC在不需要奖励模型的情况下,提供了比约束RLHF更保守(更安全)的对齐保证——不是近似,而是严格的上界。
说到底,这项研究告诉我们的,是一件在工程领域司空见惯的事情:便捷的工具背后往往有隐藏的约束条件,当这些条件不满足时,工具依然"看起来在工作",却悄悄偏离了它应该达成的目标。DPO就是这样一个工具——在绝大多数情况下它很好用,但它的理论保证是有条件的,而且这个条件在接近一半的实际情况下都不满足。
归根结底,这项研究的贡献不在于否定DPO,而在于把它的适用边界说清楚,并提供了一套成本几乎相同、但保证更强的替代方案。CPO和E-CPOC在实现上与DPO几乎无异——预计算一次边距,训练时做一个减法——但从根本上封堵了DPO可能让AI悄悄走偏的漏洞。
对于普通用户来说,这项研究意味着:未来的AI对齐技术可以更可靠,在不增加计算成本的前提下,给"让AI听话"这件事增加一层数学层面的保障。而对于研究者和工程师来说,这提醒我们:在采用任何"等价但更简单"的方法之前,都应该仔细检查它依赖的假设,以及这些假设在实际中的满足程度。
有兴趣深入了解这项研究的读者,可以通过arXiv编号2605.20834查阅完整论文,其中包含所有数学推导、实验细节以及完整的理论证明。
Q&A
Q1:DPO和RLHF理论上等价,为什么实际中DPO会出问题?
A:DPO的等价推导依赖一个隐含假设:RLHF最优策略必须对人类偏好的答案给出更高概率。但RLHF在优化时要同时平衡"获取高奖励"和"不偏离参考策略太多"两个目标,当参考策略本身就严重偏向坏答案时,最优策略可能仍然选错,导致DPO的推导基础失效。实验测量显示,即使在成熟的指令跟随模型上,这个假设在接近一半的训练样本中都被违反。
Q2:CPO比DPO多了哪些额外计算开销?
A:CPO的额外开销几乎可以忽略不计。唯一的额外步骤是在训练开始前,用参考策略对每个训练样本做一次前向推理,计算并缓存自适应边距γ_ref。标准DPO本身也需要这次前向推理来计算参考策略的对数概率,因此CPO只是在这个已有步骤上额外做两次除法和一次加法。训练过程中,每次迭代只需从logits中减去预缓存的边距值,与DPO的计算量完全相同。
Q3:E-CPOC和CPO有什么区别,应该选哪个?
A:两者都解决了DPO的核心问题,但侧重不同。CPO使用软约束(用惩罚项鼓励策略偏向好答案),边距是固定的γ乘以参考概率的倒数,实现最简单,有一个超参数γ需要调整。E-CPOC使用硬约束(通过KKT条件强制要求策略对好答案的概率差超过阈值),边距是自适应的softplus函数,对难样本自动给出更大修正,理论保证更强,且与显式约束RLHF之间有严格的等价关系。如果追求简单,选CPO;如果需要更严格的理论保证和自动难样本聚焦,选E-CPOC。

05月03日 英超第35轮 阿森纳vs富勒姆 全场录像回放
2026年05月04日
05月02日 英超第35轮 纽卡斯尔联vs布莱顿 全场录像回放
2026年05月04日
04月18日 英超第33轮 纽卡斯尔联vs伯恩茅斯 全场录像回放
2026年04月27日
04月18日 英超第33轮 利兹联vs狼队 全场录像回放
2026年04月27日
04月19日 英超第33轮 阿斯顿维拉vs桑德兰 全场录像回放
2026年04月27日
04月12日 英超第32轮 利物浦vs富勒姆 全场录像回放
2026年04月12日
04月11日 英超第32轮 伯恩利vs布莱顿 全场录像回放
2026年04月12日
04月11日 英超第32轮 布伦特福德vs埃弗顿 全场录像回放
2026年04月12日
04月11日 英超第32轮 阿森纳vs伯恩茅斯 全场录像回放
2026年04月12日
04月11日 英超第32轮 西汉姆联vs狼队 全场录像回放
2026年04月12日
05月03日 德甲第32轮 圣保利vs美因茨 全场录像回放
2026年05月11日
05月02日 德甲第32轮 法兰克福vs汉堡 全场录像回放
2026年05月04日
05月02日 德甲第32轮 不莱梅vs奥格斯堡 全场录像回放
2026年05月04日
04月18日 德甲第30轮 霍芬海姆vs多特蒙德 全场录像回放
2026年04月27日
04月18日 德甲第30轮 柏林联合vs沃尔夫斯堡 全场录像回放
2026年04月27日
04月18日 德甲第30轮 勒沃库森vs奥格斯堡 全场录像回放
2026年04月27日
04月18日 德甲第30轮 不莱梅vs汉堡 全场录像回放
2026年04月27日
04月19日 德甲第30轮 弗赖堡vs海登海姆 全场录像回放
2026年04月27日
04月25日 德甲第31轮 美因茨vs拜仁慕尼黑 全场录像回放
2026年04月27日
04月25日 德甲第31轮 海登海姆vs圣保利 全场录像回放
2026年04月27日
04月25日 德甲第31轮 科隆vs勒沃库森 全场录像回放
2026年04月27日
04月25日 德甲第31轮 沃尔夫斯堡vs门兴 全场录像回放
2026年04月27日
04月12日 德甲第29轮 圣保利vs拜仁慕尼黑 全场录像回放
2026年04月12日
04月11日 德甲第29轮 海登海姆vs柏林联合 全场录像回放
2026年04月12日
04月11日 德甲第29轮 沃尔夫斯堡vs法兰克福 全场录像回放
2026年04月12日
05月03日 法甲第32轮 欧塞尔vs昂热 全场录像回放
2026年05月11日
05月02日 法甲第32轮 南特vs马赛 全场录像回放
2026年05月04日
04月18日 法甲第30轮 洛里昂vs马赛 全场录像回放
2026年04月27日
04月19日 法甲第30轮 摩纳哥vs欧塞尔 全场录像回放
2026年04月27日
04月26日 法甲第31轮 巴黎FCvs里尔 全场录像回放
2026年04月27日
04月26日 法甲第31轮 昂热vs巴黎圣日耳曼 全场录像回放
2026年04月27日
04月19日 法甲第30轮 里尔vs尼斯 全场录像回放
2026年04月27日
04月25日 法甲第31轮 里昂vs欧塞尔 全场录像回放
2026年04月27日
04月23日 法甲第26轮 巴黎圣日耳曼vs南特 全场录像回放
2026年04月27日
04月12日 法甲第29轮 雷恩vs昂热 全场录像回放
2026年04月12日
04月12日 法甲第29轮 欧塞尔vs南特 全场录像回放
2026年04月12日
04月11日 法甲第29轮 马赛vs梅斯 全场录像回放
2026年04月12日
04月11日 法甲第29轮 巴黎FCvs摩纳哥 全场录像回放
2026年04月12日
04月06日 法甲第28轮 摩纳哥vs马赛 全场录像回放
2026年04月12日
04月05日 法甲第28轮 梅斯vs南特 全场录像回放
2026年04月12日
05月03日 西甲第34轮 阿拉维斯vs毕尔巴鄂竞技 全场录像回放
2026年05月04日
04月22日 西甲第33轮 皇家马德里vs阿拉维斯 全场录像回放
2026年04月27日
04月22日 西甲第33轮 赫罗纳vs皇家贝蒂斯 全场录像回放
2026年04月27日
04月22日 西甲第33轮 马略卡vs瓦伦西亚 全场录像回放
2026年04月27日
04月25日 西甲第32轮 皇家贝蒂斯vs皇家马德里 全场录像回放
2026年04月27日
04月24日 西甲第33轮 皇家奥维耶多vs比利亚雷亚尔 全场录像回放
2026年04月27日
04月24日 西甲第33轮 巴列卡诺vs西班牙人 全场录像回放
2026年04月27日
04月24日 西甲第33轮 莱万特vs塞维利亚 全场录像回放
2026年04月27日
04月23日 西甲第33轮 埃尔切vs马德里竞技 全场录像回放
2026年04月27日
04月25日 西甲第32轮 赫塔费vs巴塞罗那 全场录像回放
2026年04月27日
04月12日 西甲第31轮 塞维利亚vs马德里竞技 全场录像回放
2026年04月12日
04月12日 西甲第31轮 巴塞罗那vs西班牙人 全场录像回放
2026年04月12日
04月11日 西甲第31轮 埃尔切vs瓦伦西亚 全场录像回放
2026年04月12日
04月11日 西甲第31轮 皇家社会vs阿拉维斯 全场录像回放
2026年04月12日
04月11日 西甲第31轮 皇家马德里vs赫罗纳 全场录像回放
2026年04月12日
05月02日 意甲第35轮 比萨vs莱切 全场录像回放
2026年05月04日
04月19日 意甲第33轮 那不勒斯vs拉齐奥 全场录像回放
2026年04月27日
04月18日 意甲第33轮 乌迪内斯vs帕尔马 全场录像回放
2026年04月27日
04月25日 意甲第34轮 帕尔马vs比萨 全场录像回放
2026年04月27日
04月25日 意甲第34轮 那不勒斯vs克雷莫内塞 全场录像回放
2026年04月27日
04月13日 意甲第32轮 博洛尼亚vs莱切 全场录像回放
2026年04月20日
04月12日 意甲第32轮 亚特兰大vs尤文图斯 全场录像回放
2026年04月12日
04月12日 意甲第32轮 AC米兰vs乌迪内斯 全场录像回放
2026年04月12日
04月11日 意甲第32轮 都灵vs维罗纳 全场录像回放
2026年04月12日
04月11日 意甲第32轮 卡利亚里vs克雷莫内塞 全场录像回放
2026年04月12日
04月11日 意甲第32轮 罗马vs比萨 全场录像回放
2026年04月12日
04月07日 意甲第31轮 那不勒斯vsAC米兰 全场录像回放
2026年04月12日
04月07日 意甲第31轮 尤文图斯vs热那亚 全场录像回放
2026年04月12日
04月06日 意甲第31轮 莱切vs亚特兰大 全场录像回放
2026年04月12日
04月06日 意甲第31轮 国际米兰vs罗马 全场录像回放
2026年04月12日
04月13日 NBA常规赛收官战 鹈鹕vs森林狼 全场录像回放
2026年05月04日
04月13日 NBA常规赛收官战 篮网vs猛龙 全场录像回放
2026年05月04日
04月13日 NBA常规赛收官战 掘金vs马刺 全场录像回放
2026年05月04日
04月13日 NBA常规赛收官战 魔术vs凯尔特人 全场录像回放
2026年04月27日
04月13日 NBA常规赛收官战 勇士vs快船 全场录像回放
2026年04月20日
04月15日 NBA附加赛 开拓者vs太阳 全场录像回放
2026年04月20日
04月18日 NBA附加赛 勇士vs太阳 全场录像回放
2026年04月20日
04月11日 NBA常规赛 太阳vs湖人 全场录像回放
2026年04月12日
04月11日 NBA常规赛 勇士vs国王 全场录像回放
2026年04月12日
04月11日 NBA常规赛 快船vs开拓者 全场录像回放
2026年04月12日
04月11日 NBA常规赛 灰熊vs爵士 全场录像回放
2026年04月12日
04月11日 NBA常规赛 雷霆vs掘金 全场录像回放
2026年04月12日
04月11日 NBA常规赛 森林狼vs火箭 全场录像回放
2026年04月12日
04月11日 NBA常规赛 独行侠vs马刺 全场录像回放
2026年04月12日
04月11日 NBA常规赛 魔术vs公牛 全场录像回放
2026年04月12日