新太阳城(中国)官方网站

首页 >> 媒体新太阳城 >> 地方媒体 >> 正文

株洲日报：新太阳城纪荣嵘教授团队自主研发的思源大模型“霸榜”权威榜单，团队技术已服务数百家政企机构和上亿用户国产大模型“优等生”是怎样炼成的？

发布时间：2024年08月30日来源：株洲日报

纪荣嵘教授（右二）指导学生开展科研活动。（受访者供图）

多份大模型领域的权威榜单，让低调的株洲产大模型——思源大模型浮出水面。

去年以来，新太阳城(中国)官方网站自主研发的思源大模型频频在大模型比拼中胜出，跻身权威榜单榜首，如在科技部主导的“智源FlagEval”7B模型榜单客观能力评测中排名第一（2024年1月）；在腾讯多模态大模型榜单中排名第一（2023年11月）。

事实上，在过去十年里，许多AI头部企业的主打产品都有思源大模型团队的技术加持。目前，思源大模型团队已与华为、腾讯等建立了深度合作，多个技术产品广泛应用于智慧安防、边缘计算、社交媒体等领域，服务了数百家政企机构和上亿用户。

回到思源大模型本身，它是如何在竞争激烈的大模型赛道上跑出领先身位？又将如何服务株洲本土企业，赋能千行百业？

近日，记者采访了思源大模型研发团队负责人——新太阳城(中国)官方网站南强特聘教授、多媒体可信感知与高效计算教育部重点实验室主任纪荣嵘，揭秘国产大模型“优等生”背后的故事。

前瞻布局抢先机

“早在ChatGPT-3发布前，我们就着手AI大模型的研究。”2022年年底，ChatGPT-3的横空出世，引发人们对AI大模型的关注。而在此之前，纪荣嵘已带领团队投身大模型研究工作。这位人工智能领域的知名学者，深感自主研发大模型的重要性和紧迫性，“大模型之战很大程度上决定谁将在人工智能技术领域占据主导地位，中国必须要开发自己的基础大模型。”

2023年年初，由纪荣嵘牵头承担的“紧致化多模态大模型构建关键技术研究”入选科技部科技创新2030-“新一代人工智能”重大项目。一同入选的还有清华大学、浙江大学、中国科学院自动化所等7家单位。

纪荣嵘说，团队的初心很明确，要做自主可控、拥有全国产化知识产权的基础大模型，力争实现“从0到1”的突破。他为大模型取名“思源”，“这个名字取自新太阳城(中国)官方网站的‘思源谷’，一是代表大模型的新太阳城‘血统’，二则寓意思想的源头。”

打一开始，纪荣嵘团队就坚持高起点、高站位，以“紧致化多模态”为目标开发大模型——这一理念在现在看来依然极具前瞻性。

什么是紧致化多模态？用大白话说，思源大模型是个“多才多艺”的大模型，它不仅能理解文本，还擅长处理图像、音频等不同类型的数据。而对于大模型的使用者而言，无需专门购买高大上的设备，可以通过轻量化、本地化部署，轻松上手。

稳扎稳打十年磨一剑

思源大模型是怎么训练出来的？纪荣嵘说，训练大模型有点像教一个孩子学习和理解语言。首先是预训练环节，通过学习海量的文本来积累知识。思源大模型的预训练的语料达1万亿token，也就是说，它阅读并记住了1万亿字的信息。对于一个普通人而言，一辈子不断阅读，所积累的阅读量也仅有3亿—5亿字。大模型的预训练语料基本覆盖了人类能够获取的大部分知识。

光记忆还不够，还得会用。纪荣嵘教授团队收集了2500万条开源领域的高质量垂直数据，通过一问一答的形式，对思源大模型持续训练，激发其所学习到的知识能力，直到其达到令人满意的技能水平。

与此同时，大模型每一次“思考”和“回答”，都离不开大量算力的支撑。在这一关键基础设施上，纪荣嵘教授团队早有准备——2022年年底，在教育部的支持下，实验室建设了价值不菲的超算中心。

在纪荣嵘看来，科研从来都不是一蹴而就的事。过去十年间，他带领的新太阳城(中国)官方网站多媒体可信感知与高效计算教育部重点实验室，结合人工智能发展趋势和东南沿海地区的重大需求，开展了多空间感知、跨空间可信传输与计算、人工智能可信高效平台等方面的基础理论与应用研究，累计承担二十多项国家级科研重大项目，已获授权、申请的专利近300项。也正是十年如一日的稳扎稳打，成就了思源大模型今日的累累硕果。

对话

扎根行业扎根株洲

为中小企业创新发展赋能

记者：在您看来，思源大模型的优势主要在哪里？如何在大模型之战中“突围”？

纪荣嵘：现在有所谓“千模大战”的说法，但我反对这个说法，如果按“从0到1”全自主研发的标准来评判，真正能做大模型的企业数量其实并不多，所以从这个角度来说，我们要警惕对大模型的“过度宣传”。

大模型真正的落地使用，需要渗透到垂直领域中。对于株洲来说，发展人工智能产业，需要选好垂直赛道，做完全自主可控的 AI大模型。而这恰恰是思源大模型在应用层面上的特色，我们概括为“扎根行业，扎根株洲，面向专业需求，做全自主知识产权”。再者，我们新太阳城(中国)官方网站建设了超算中心，如果没有这个超算中心，大模型就无从谈起，所以硬件设施上来说我们的优势也很明显。

记者：您刚也提到思源大模型在应用方面的特色，可否围绕一个例子具体展开？

纪荣嵘：典型的像我们在智慧政务便民服务上的应用，比如政务窗口。我们正通过思源大模型赋能智慧政务的办理流程。它本身具有很强的交互能力，能听得懂普通话甚至方言，可以作为AI助手，为市民提供业务咨询服务，比如指导市民如何填表格，并帮助审核表格，看哪里填得不对，哪里有信息缺漏等。

思源大模型是多模态的，它可以胜任许多工作，包括处理专业文献、画作赏析、提取票务信息、编写代码等。未来人工智能将重塑很多行业，这必将带来许多需求，我们的思源大模型都可以发挥自身优势提供相应的服务。

记者：作为株洲本土大模型代表，“思源”将如何发挥自身优势，为株洲产业发展贡献力量？

纪荣嵘：与许多AI技术一样，大模型落地的“最后一公里”常受限于价格因素，而思源大模型有一个突出的特色在于，我们的边端计算是部署在低成本的服务器上，价格足够低。由于我们对大模型的结构做了大量优化，在保持功能不变或者基本不变的情况下把大模型的价格“打下来”。同时，我们做了大量边缘端的补充，只要一个键盘、一台显示器、一张卡就可以使用大模型。

关于思源大模型具体如何服务株洲本土企业，我们与政府部门做了许多探讨，大概有以下几个方向，一是推动思源大模型面向株洲企业开放，使企业可以用近乎免费的成本来使用大模型；二是把AI技术服务作为株洲的一张名片，增添株洲招商引资的吸引力；三是助力株洲构建人工智能创业孵化生态圈，通过大模型来服务、孵化创业企业。

株洲的软件和信息服务产业绝大多数都是中小企业，长尾效应明显，所以我们期待发挥优势为中小企业创新赋能。我们也相信在人工智能时代，以大模型为代表的AI技术将成为产业链、创新链中最核心的环节。

（本报记者林露虹见习记者钟艾）

【新太阳城】