文本识别^[1]

学术论文

顶级大模型“扰动文字”测试集体“翻车”

顶级视觉语言模型（如GPT-4o、Gemini等）在扰动文字前识别能力大幅下降，人类却可轻松解读，暴露AI非标准文本理解局限。因AI依赖模式匹配缺乏结构理解，在中文成语切割重组、英文彩色叠加等实验中近乎崩溃，且在多书写系统中普遍存在。此缺陷致教育、文献处理受限，更存安全漏洞，攻击者或用扰动文字绕过AI审查。研究建议通过强化结构先验知识、扩充复杂训练数据等改进，揭示AI与人类认知本质差异。

Lyra

2025-09-11

文本识别[1]

顶级大模型“扰动文字”测试集体“翻车”

文本识别^[1]