文本识别[1]

顶级大模型“扰动文字”测试集体“翻车”

顶级视觉语言模型(如GPT-4o、Gemini等)在扰动文字前识别能力大幅下降,人类却可轻松解读,暴露AI非标准文本理解局限。因AI依赖模式匹配缺乏结构理解,在中文成语切割重组、英文彩色叠加等实验中近乎崩溃,且在多书写系统中普遍存在。此缺陷致教育、文献处理受限,更存安全漏洞,攻击者或用扰动文字绕过AI审查。研究建议通过强化结构先验知识、扩充复杂训练数据等改进,揭示AI与人类认知本质差异。