端侧AI[10]

Google Gemini 2.5 Flash Image API上线 开发者生态全面升级

Google DeepMind开放Gemini 1.5 Flash Image API,为开发者提供轻量高效多模态AI能力。该模型具低延迟(提速30%+)、低资源(体积压缩40%)、低成本(较Pro版降60%)特性,支持图像/视频/音频混合输入,100万tokens超大上下文窗口提升处理效率。搭配AI Studio零门槛测试、Gemma开源模型本地化部署、AI Edge跨端方案及代码助手,构建从原型到落地全链路工具生态,推动多模态AI技术普惠化。

mlx-lm库重大更新:Apple芯片本地AI推理新增多款模型,性能显著提升

Apple芯片本地AI推理能力迎重磅升级,mlx-lm库重大更新!新增Qwen3 Next、MobileLLM等热门模型,覆盖通用大模型及移动端轻量场景,推理速度与并发处理效率显著提升,支持批量生成及SSM/GPT-OSS加速。助力开发者依托本地算力部署,提升终端用户隐私安全,为Apple设备AI应用开辟新可能。

Google发布VaultGemma:首个差分隐私预训练轻量级开源语言模型

2025年9月Google发布开源语言模型VaultGemma,20亿/18亿参数轻量级设计,首创差分隐私(DP)从头预训练(ε≤2.0,δ≤1.1×10⁻¹⁰),实现数学可验证隐私保护。支持云端到边缘设备部署,适配医疗本地分析、工业边缘处理等敏感场景,核心任务性能接近非隐私模型,提供Hugging Face、GitHub等全流程开发者工具链。

蚂蚁集团推出全球首个智能眼镜可信连接框架gPass 重构数字生活入口

AI眼镜成下一代智能终端,但面临生态碎片化难题。蚂蚁集团推出全球首个智能眼镜可信连接技术框架gPass,以安全、交互、连接为核心,破解软硬件不统一、应用匮乏、服务割裂痛点,构建全链路安全防护、自然多模态交互及跨设备协同标准,已落地支付、文旅、医疗等场景,加速行业普及,重新定义数字生活入口。

Google Gemini登顶美国App Store免费榜:Nano Banana AI图像编辑模型驱动

Google Gemini登顶美区App Store免费榜,内置Nano Banana AI图像编辑模型成关键。该模型以角色一致性控制(解决主体失真)、多模态交互(支持13图融合、地图标记生成)、高效处理(单次10-20秒)为核心优势,免费用户每日可编100张图,正重塑社交创作、3D打印等场景,成AI图像编辑新标杆。

Recall.ai发布桌面录制SDK:无需会议机器人,推动会议数据API化变革

Recall.ai桌面录制SDK革新会议录制技术,告别传统机器人参会模式,终端本地采集+云端API输出,攻克大规模高可靠录制难题。具备动态发言人识别、智能视频合成等核心能力,提升数据质量与AI处理效率,服务金融、医疗、销售分析等2000+企业客户,低延迟高可靠,合规保障数据安全,助力企业挖掘会议数据价值。

上交大开源MobiAgent:全栈移动端AI Agent工具链

上海交大IPADS实验室开源MobiAgent移动端AI智能体工具链,含数据收集、训练、推理加速、自动评测四大模块,支持定制手机AI助手。7B参数模型性能超越GPT-5,AgentRR“肌肉记忆”技术提速2-3倍,端侧处理保障隐私,低功耗降30%-50%能耗,全流程工具链大幅降低开发门槛。

九州大学与中科院计算所MVDRAM:标准DDR4 DRAM变身计算单元,端侧LLM推理提速

大语言模型(LLM)推理在手机、智能家居等边缘设备中面临内存瓶颈,数据搬运导致延迟与能耗居高不下。2025年3月,日本九州大学与中科院计算所团队联合提出MVDRAM系统,通过算法与内存协议协同设计,让标准DDR4 DRAM无需硬件修改即可变身“计算型内存”,破解存算墙难题。 MVDRAM创新将输入向量映射至DRAM行、权重矩阵按列分布,利用DRAM物理特性实现内部并行乘累加,消除数据冗余搬运。实验显示,在2/4比特量化下,其GeMV计算延迟较CPU降低5.1-7.29倍,能效提升22.8-30.5倍;端侧LLM推理(如OPT-125M模型)吞吐量达传统方案1.31-2.18倍,2比特场景每秒可生成23.5个token。 该技术无需额外硬件成本,可直接赋能数十亿存量边缘设备,大幅降低端侧AI部署门槛,为DDR5/LPDDR5存算融合发展提供新路径,推动边缘智能高效落地。

Alterego:“意念打字”革命,Silent Sense技术开启无声人机交互

Alterego:重新定义人机交互的“意念打字”革命。其搭载的“Silent Sense”技术,无需出声或动手,通过捕捉默念时口腔、喉部肌肉细微肌电信号,经深度神经网络实时解码为文字或指令,误码率低于5%。核心优势在于无声交互与免提操作,适配图书馆、会议、驾驶等多场景,且通过个性化校准和本地加密保障隐私。可提升办公效率、辅助飞行员等专业人士作业,更能为语言障碍者搭建沟通桥梁。2024年商用在即,Alterego正以“一念直达”的体验,开启人机交互新篇章。

拍我AI限时免费开放,零门槛体验AI视频创作轻量化新纪元

9月5日-10日,国内AI视频生成平台“拍我AI”(PixVerse中国版)启动免费开放日活动,用户可零门槛体验AI视频创作新纪元。作为首批集成谷歌Gemini 2.5 Flash Image(Nano Banana)技术的平台,其凭借低延迟特性,30秒短片数秒生成,支持文生视频(3秒)与图生视频(30秒),搭配Agent助手自动生成脚本、音效字幕,简化“上传-生成-微调”流程。模板覆盖宠物短剧、3D手办动画等多元场景,全球用户已破亿,所有视频自动添加“AI生成”水印保障合规。即刻参与,零门槛体验谷歌技术加持的轻量化创作,让灵感秒变动态画面!