IT之家 9 月 27 日消息,苹果正在研发一款名为 Manzano 的新图像模型,旨在同时具备图像理解与图像生成两大能力。
不过目前 Manzano 尚未正式发布,也没有演示 Demo,只有一篇作者绝大多数都是华人的预印本论文(包括已经跳槽到 Meta 的庞若鸣),还展示了部分低分辨率图像样例,涵盖较复杂的提示场景。
苹果表示,这一双重功能长期以来是技术难点,使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。
(资料图片仅供参考)
苹果将其与 DeepSeek Janus Pro 等 AI 模型进行了对比,结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(IT之家注:原代号 Nano Banana)。
苹果指出,大多数开源模型在图像处理上存在取舍:要么擅长图像分析,要么擅长图像生成,而商业系统通常能兼顾。尤其在涉及大量文本的任务(如文档阅读、图表解读)时,现有模型表现不佳。问题根源在于图像处理方式:连续数据流更适合理解,而离散符号则更适合生成,多数模型为这两类任务分配不同工具,易引发冲突。
为此,Manzano 采用了混合图像分词器。其共享编码器可输出两类标记:连续标记(用于图像理解,以浮点数形式表达)和离散标记(用于图像生成,按固定类别划分)。由于二者源自同一编码器,因此其任务冲突显著减少。
Manzano 的整体架构包括三部分:混合分词器、统一语言模型,以及独立的图像解码器。苹果为解码器构建了三个版本,参数规模分别为 9 亿、17.5 亿和 35.2 亿,支持 256 像素至 2048 像素分辨率。
训练过程分为三个阶段,使用 23 亿对图像-文本样本(来自公开和内部数据),以及 10 亿对文本-图像样本,总计处理 1.6 万亿标记。部分训练数据来自合成生成,如 DALL-E3 和 ShareGPT-4o。
在内部测试中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异,尤其在图表和文档分析等文字密集型任务中,300 亿参数版本成绩突出。扩展测试显示,模型性能随规模提升而持续改善,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。
苹果还将统一模型与专业化系统对比,差距仅为个位数分值:在 30 亿参数版本中,差距不到 1 分。在图像生成测试中,Manzano 亦接近前列,可执行复杂指令、风格迁移、图像叠加与深度估计等任务。
苹果认为,Manzano 是现有模型的有力替代方案,其模块化设计可支持各部分独立更新,并借鉴不同研究领域的训练方法,有潜力推动未来多模态 AI 的发展。
不过,目前苹果的基础模型整体仍落后于行业领先者。即便推出新的端侧 AI 框架,苹果仍计划在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技术上的进展,但是否能减少对外部模型的依赖,还需未来版本进一步验证。
凡本网注明“XXX(非中国微山网)提供”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和其真实性负责。
清理规范城镇供水供电供气供暖行业收费意见三月起施行水电气暖四十余项不合理收费将取消初春的大地,乍暖还寒。每天的开销看似不大,但一样
2021-02-22 15:22
还记得沸沸扬扬的退出家长群新闻吗?这几年来,批改作业已成为越来越多家长的痛。为了给家长减负,多地陆续出台规定,明确要求教师亲自批改
2021-02-22 15:24
ok镜在感冒期间是不能佩戴的,很容易引起眼部不适,还会影响视力恢复,降低塑形效果,这个时候一般都需要停戴一个星期左右的时间,等感冒好
2022-03-28 12:47
大学被退学能考研吗是很多人好奇的,毕竟大学作为你步入社会前的一个垫脚石,很多人觉得上了大学就没什么事情了,但是吧如果你严重违反了纪律
2022-03-28 12:57
2020年10月17日,上海野生动物园一名工作人员在猛兽区实施作业时,遭到棕熊攻击不幸身亡。日前,这一事件调查结果公布,9名相关责任人被处
2021-02-22 15:25
受冷空气影响,昨天(2月21日)夜间开始,北京告别了白天的假夏天模式,大风降温齐上线。今天,冷空气带来的影响会更加明显,预计白天的最高
2021-02-22 15:29
为何这些从业门槛较低的岗位总缺人?阅读提示营销员、保洁员、餐厅服务员等从业门槛较低的工种之所以持续招工难,专业人士认为,一方面是受
2021-02-22 15:29
从疫情爆发至今已有超过一年的时间,人们已经习惯戴上口罩。在口罩的掩护下,就算是最精致的丽人们,也减少了使用口红的频率。红星资本局从
2021-02-22 15:51
原标题:教育部发布预警: 高校招生录取期间谨防诈骗 勿信不实传言据教育部网站消息,2021年普通高校招生录取工作即将开始,一些不法分子
2021-07-08 17:25
赟是一个汉字,读音yūn,作人名时亦为yún,常用意思美好,大等美好。该字因其由文、武、贝三字组成,古代‘贝’指&lsquo
2020-12-16 15:12