携手央企及产业各方共同发布大模型评测体系建设的重要成果《通用大模型评测标准》,为产业界遴选优质大模型提供重要参考依据。
本次发布的九天善智多模态基座大模型是九天系列通用大模型的最新研发成果,模型四大功能显著提升:
一是长文本智能化解析,支持超十万字的文本理解,从多份文档中自动分析提炼关键信息,准确解析信息背后的核心观点,最终实现图文并茂、逻辑严谨的专业报告,可高效提升信息处理及决策效率;
二是全双工语音交互,支持多种方言翻译,用户随时打断的情况下也可保持连贯性和一致性,精准解答用户问题,智能识别客户意图和情绪,生成个性化回复,可广泛应用于智能客服及个人助理等场景,为用户带来全新的交互及服务体验;
三是视频与图像处理的双重飞跃,通过少量提示词即可创作出高质量、高清晰度、高创意性的图片与视频,对于细节的精准捕捉、复杂的视角构图、光线与光影的准确运用、东方美学的理解表达可媲美专业级摄影水平,让创意触手可及;
四是结构化数据的深度洞察,支持大规模多类型结构化数据分钟级处理分析,具备复杂数据理解和逻辑推理能力,全面支持分类、回归、预测、异常检测等行业领域典型任务,在零样本或少样本情况下即可实现跨域应用,服务复杂系统智能化,为业务决策提供前瞻性依据,推动产业向着更加智能化的方向发展。
九天善智多模态基座大模型多项关键技术指标达到业界领先水平,语音合成技术在INTERSPEECH全球顶赛中荣登榜首,多任务语言理解能力在权威BBH榜单上名列第二,图像内容理解对话和视频内容理解对话分别在MME-P榜单和MVBench榜单位列第二名和第三名,文生视频能力在VBench榜单位列亚军。
为促进国民经济智能化转型升级,基于九天系列通用大模型,中国移动深入金融、交通、能源、制造等10+个行业,全自研30+横跨多领域的行业大模型,推动基于大模型的规模化行业应用蓬勃发展,加快形成面向经济社会各领域的赋能辐射圈。目前,九天海算政务大模型已与黑龙江合力打造全国首例政务领域综合搜索平台;九天医疗大模型已在协和医院、广州120等龙头机构落地部署。同时,正与中国石油联合打造昆仑大模型,助力能源化工行业AI+转型。
大模型评测是助力人工智能赋能行业应用的重要一环。当前众多企业已启动大模型建设,亟需建立配套的通用大模型和行业大模型评测体系。为发挥大模型评测领域的引领作用,联合电子标准院及16家重点央企共同开展大模型评测体系建设工作。第一阶段将围绕通用领域和4个重点行业领域,从评测标准制定、评测基地建设、评测试点应用等方面开展工作。
通用大模型评测标准基于“2-4-6”框架。“2”代表两类评测视角,以重点行业实际使用需求为导向,与国标对模型能力要求拉齐,将评测任务划分为理解和生成两类视角。“4”代表四类评测要素,从评测全生命周期中提取出评测工具、评测数据、评测方式和评测指标四类关键要素,确保评测工作可实施性。“6”代表六大评测维度,综合考虑大模型应用过程中的核心能力,设定功能性、准确性、可靠性、安全性行业新闻、交互性和应用性六大维度。该标准广泛吸纳产学研用各方意见,并结合行业特色场景需求,可为通用大模型全面评估提供客观依据,为AI赋能千行百业提供保障。
未来,中国移动将联合行业龙头企业、业界头部公司、知名高校和科研机构,深入挖掘石油、电力、交通和物流等重点行业应用需求,持续打造并完善通用及行业大模型评测体系,积极建设大模型评测基地,广泛征集各中央企业及头部民企积极参与大模型评测,打造落地应用最佳实践,为提升AI+行业新质生产力,保障国产大模型高质量发展。