当大模型技术重塑数字产业格局,企业对数据转化的需求已从“识别文字”升级为“理解业务、驱动决策”。远光软件将光学字符识别(OCR)技术与多模态大模型协同应用,全新打造出兼具精准识别与智能推理能力的远光图文底座(OCR),为企业数字化转型注入动能。
技术破壁
从“单一识别”到“多模态理解”
针对传统OCR“硬编码”的局限,远光图文底座(OCR)以全栈自研的图文识别智能底座为核心,构建“云-边-端”协同的部署形态,并通过融合视觉、语义等多维度信息,以“感知编码→文字识别→任务理解与后处理”的统一产线,实现了从“文字识别”到“数据理解”的跨越式升级。既能处理图像、文本、表格、版式等混合文件,又能通过注意力与结构先验聚焦发票金额、合同签署页、资质有效期等关键区域,显著增强复杂场景下的鲁棒性与可解释性。
01
感知与版面编码:奠定理解基础
对输入影像进行去噪、去阴影、倾斜/畸变矫正等质量增强与几何校正,并进行区块、表格、印章、签字/签章位置、页眉页脚、跨页连贯关系等版面/结构要素识别,为后续文字与语义处理提供位置与结构先验。
02
检测识别一体化:确保精准输出
面对手写体、多语种混排、印章覆盖、低清模糊等识别难点,远光OCR巧妙结合Transformer系列识别网络与字形先验、语言建模校正等策略,确保字符级与字段级的高保真输出,大大提高了识别的准确性和可靠性。
03
语义理解与知识对齐:实现深度理解
通过多模态大模型(如Qwen-VL-2B等轻量化 VLM)与领域知识(业务元数据/规则库/知识图谱)协同,对已识别内容进行语义归一化、字段抽取、跨页表格合并、逻辑一致性校验,如对金额、税率、日期及主体一致等的校验,并生成可读摘要、要点提炼与稽核结论。既能“理解文档”,也能将理解结果结构化输出到业务系统。
价值释放
多模态大模型协同应用破解企业痛点
01
统一产线:一站式输出结构化结果
远光图文底座(OCR)通过与多模态大模型协同应用,已从单纯的“只做识别”升级为“图文识别+文本后处理”的共性服务。解析后端自动提取、合并并核对多页多文件的关键信息,附带可追溯依据,统一输出可直接入库或过账的标准化数据。同时,推进模型与服务的统一化封装,有效降低了对接成本,便于应用到更多场景中,提高了方案的通用性和可扩展性。
02
复杂场景增益:实现“识别→理解→抽取”闭环
面向财务报销、商旅票据、证照与省侧等多场景需求,远光图文底座(OCR)通过解析后端在识别结果与版面/布局线索的基础上,完成关键信息提取与一致性校核。例如,在处理复杂版式的票据时,能够准确提取关键信息并进行一致性验证,大大提升了复杂版式与多类票据的可用性与可解释性,为企业提供了更准确、可靠的数据支持。
03
工程可控:平衡能力迭代与成本控制
远光图文底座(OCR)将多模态能力放在“解析后端”,保留了既有识别链路的稳定性。在此基础上,依据调用结构与并发目标按需扩容,实现了能力迭代与成本可控的平衡。这种灵活的部署方式,既满足了企业对新技术应用的需求,又避免了因大规模升级带来额外的算力消耗与资源压力。
场景渗透
从通用到定制的多元场景覆盖
远光图文底座(OCR)与多模态大模型协同应用,构建了“通用-定制-延伸”全场景应用体系,涵盖通用文档(文字)识别、卡证识别、票据识别、智能文档抽取、智能图像处理等功能场景,精准匹配企业多元需求。
01
通用场景开箱即用
数电票、增值税发票、营业执照等36种预置模型,支持JPG、PDF、OFD等格式,公有云、一体机等多模式快速部署,满足财务报销、税务申报等高频需求。
02
定制场景一站解决
内置表格、图像识别模型,提供非固定版式提取、附件完整性检查、签字盖章定位等能力,为复杂业务打造“分类-核验-推理”全流程方案。
03
延伸场景软硬一体
将模型与智能终端融合,实现“扫描+识别”协同,减少70%重复工作,规避人工漏核风险。
远光图文底座(OCR)依托多模态技术高效打通数据转化壁垒,深度激活企业数据潜能,加速企业从“数字化”向“智能化”跨越。目前,产品已在能源、电力、金融、制造等多个行业的央国企深入应用,全面赋能企业各类业务场景。