数据质量[5]

全球AI巨头联手推出开放语义互操作标准 破解企业数据碎片化难题

AI时代数据碎片化致核心指标语义冲突,成企业AI落地“隐形成本杀手”。Snowflake、Salesforce等20余家企业联合发起开放语义互操作(OSI)标准,通过统一业务数据语义,降低跨系统协调成本,提升AI模型预测准确率,为企业AI价值释放铺设“无障碍通道”。

Hugging Face突破性研究:数据受限下LLM重复训练4个epoch性能几无影响

大型语言模型(LLM)训练面临高质量数据稀缺瓶颈,Hugging Face最新研究显示,数据受限场景下重复使用训练数据达4个epoch,模型性能几乎不受影响。这一发现打破“重复训练必降效”认知,提出数据稀缺时代新扩展定律,为AI开发者指明“用好数据”而非“抢数据”的突围路径。

OpenVision 2发布:极简生成式视觉预训练摒弃对比学习,性能效率全面超越CLIP

OpenVision 2掀起视觉预训练“减法革命”,以极简设计挑战CLIP霸权:砍掉文本编码器与对比学习,仅保留图像→描述生成任务,训练效率提升1.5-2倍、显存占用减半,性能媲美CLIP,在OCR、图表理解等细粒度任务更优。依托Recap-DataComp-1B v2高质量数据,推动视觉大模型降门槛。

大模型RL训练性能鸿沟弥合:Hugging Face迭代DPO策略提升OOD鲁棒性

大模型RL训练中,在线(如PPO)与离线(如DPO)算法存在性能鸿沟,尤其面对OOD数据时,PPO准确率达82%而DPO仅64%。迭代DPO通过滚动数据缓存、奖励模型蒸馏等技术,3轮迭代后OOD准确率提升至76.4%,接近PPO的92%,且内存消耗仅为PPO的1/5。研究表明,数据质量影响远超算法选择,多领域偏好数据可使DPO性能提升37%,噪声过滤能让OOD鲁棒性增强29%。当前行业采用“PPO初始化+DPO微调”等混合策略,在保持95% OOD性能的同时降低60%训练成本,平衡效率与鲁棒性成优化关键。

微软亚洲研究院DELT范式:优化数据顺序,让大模型效能跃升无需扩容参数

大模型训练正从“参数竞赛”转向“数据效能”优化,微软亚洲研究院提出的DELT范式指出,数据顺序是决定模型性能的关键。DELT通过“评分-选择-排序”动态机制,让数据适配模型学习节奏,核心依托LQS评分(量化数据静态质量与动态适配性)和折叠排序(优化训练顺序)两大技术。实验显示,7B模型用80%数据即可达传统全量数据训练的SOTA性能,训练时间缩短23%;在金融风控、医疗诊断等领域,召回率提升4%、罕见病识别准确率提高6.7%。该范式推动AI从参数依赖转向数据智能编排,为大模型高效训练提供新路径。