云知声(09678)推出文档智能基础大模型“Unisound U1-OCR” 正式开启OCR 3.0时代
時間:2026-02-26 15:33:25
雲知聲
智通财经APP获悉,2月26日,云知声(09678)宣布正式推出文档智能基础大模型“Unisound U1-OCR”。作为首个工业级文档智能基座,该模型正式开启OCR 3.0时代,在理解版面的基础上,进一步洞察文档深层语义,实现自动分类与业务级信息抽取,完成了从“字符感知”到“文档认知”的质的飞跃,标志着AI从单纯“识字”跃迁至“理解业务逻辑”。
Unisound U1-OCR是一款达到国际顶尖水平(SOTA)的文档智能理解模型,在多项权威测试中均获业界SOTA表现,其核心优势在于突破了传统模型“只读文字、不懂排版”的瓶颈,能够像人类专家一样“看懂”复杂文档。
为适应 OCR 3.0 时代对于文档业务级结构化抽取的新要求,Unisound U1-OCR采用ViT + LLM架构,其中视觉编码器部分采用NaViT架构,实现文档分辨率动态处理,模型参数规模3B量级,兼顾模型计算效率与文档深层语义信息理解的能力要求。
模型提出了多项创新举措:首创“语义驱动+动态聚焦”策略,自动构建文档的“语义地图”,精准识别标题、图表与正文的从属关系,拥有“先懂结构,再读内容”的智慧;具备敏锐的“空间感知力”,能主动理解元素间的空间布局,结合动态分辨率技术精准还原文档结构;此外,采用Multi-Token Prediction(MTP)技术,在预测当前Token时,同步考虑未来多个Token的概率分布,大幅提升长文档逻辑连贯性。配合全任务强化学习策略,增强模型对版式结构的全局预见性并在推理阶段将模型生成效率提升了80%以上。
业务层面,模型立足于工业级场景需求,打造了精准溯源、业务融合、安全高效部署、超强适配四大核心能力,真正适配企业真实业务的全场景需求,实现从‘读懂’到‘执行’的业务落地。
Unisound U1-OCR开启OCR 3.0时代,不仅是文档智能的革新,更是云知声迈向AGI的关键一步。公司将以多模态文档为知识入口,赋予机器自主推理与证据溯源能力,推动AI从感知走向认知。未来,云知声期待构建能像人类一样阅读、思考并解决复杂问题的通用智能体,让每一份文档都成为通往AGI的智慧阶梯。
免責聲明:本資訊不構成建議或操作邀約,市場有風險,投資需謹慎!


