提升人工智能大模型可信性和可用性势在必行
人工智能作为引领新一轮科技革命和产业变革的战略性技术,深刻改变人类生产生活方式。人工智能带来前所未有发展机遇,也带来前所未遇风险挑战。2025年4月25日,习近平总书记在主持中共中央政治局第二十次集体学习时强调,面对新一代人工智能技术快速演进的新形势,要充分发挥新型举国体制优势,坚持自立自强,突出应用导向,推动我国人工智能朝着有益、安全、公平方向健康有序发展。以DeepSeek为代表的大模型技术应用正加速渗透至政务、产业、学术等领域,其生成内容的可信性问题日益凸显。应客观认识其技术根源,研判潜在应用挑战,通过平衡技术创新与风险防控,提升大模型的可信性和可用性,确保人工智能技术与应用有效服务我国经济社会高质量发展与治理能力现代化。
DeepSeek爆火引发应用热潮
政务系统火速接入掀起效能革命与治理升级
全国多地正加速推进DeepSeek本地部署,布局“AI+政务”新模式。据不完全统计,广东、江苏、四川等13个省份的44个地级市已完成DeepSeek人工智能大模型本地化部署,人机协同提升行政效能。通过人机协同机制重构行政流程,形成“AI+政务”的创新性服务体系。人工智能大模型促使人机协同提升行政效能。以深圳福田为例,其基于DeepSeek开发的“AI数智员工”承担涉及11大类240个场景的政务辅助工作,公文审核时间缩短90%,错误率控制在5%以内,人机协同下整体效率提高20%以上。技术驱动深层次推动了对企服务模式转型。无锡打造的锡企服务平台3.0接入DeepSeek后实现企业咨询“秒懂需求”,高效省心。临沂将DeepSeek接入“沂蒙慧眼”系统后,融合公共数据构建企业精准画像,助力融资增信超33亿元。
企业合作加速落地助推产业智能化深度突破
人工智能大模型正成为企业数字化转型的核心技术引擎,企业界成为DeepSeek落地的战略支点,国资央企“牵手”DeepSeek已成为一股新潮流。据经济参考报报道,超20家央企先后接入DeepSeek大模型,涉及能源、通信、汽车、金融、建筑等多个领域,覆盖了从算力到应用端的广阔领域。例如,中国华能接入DeepSeek的“睿智小能”AI助手在实现知识问答、公文拟稿、智能校对、文件解读、科研辅助等基础功能之上,还深度参与了公司的电力生产控制、设备检修指导等关键领域。DeepSeek重新定义了科技巨头竞争格局。从互联网巨头到手机厂商、再到云服务和AI应用厂商,腾讯、阿里、百度、华为等众多科技公司争相接入DeepSeek,不仅促使其品类丰富的应用服务获得了新的生命力,也逐渐通过“核心模型公司+平台型巨头+中小开发者”的生态架构促使资源和创新能力得到有效整合,催生出“基础模型+垂直应用”的协同创新范式。更深远的影响在于推动技术平权化趋势。中小开发者通过微调接口能获得与大企业相当的基础模型能力,各类开发者将获得更丰富的创新机会。当人工智能大模型技术与工具逐渐普及,人工智能商业化应用将更加多元,整体产业链有望快速转型升级。这种生态重构预示着人工智能产业将从“技术垄断”转向“能力共享”,为数字经济高质量发展注入新动能。
学术领域积极跟进有助于教育科研范式革新
高校掀起AI大模型本地化部署浪潮。2月14日,浙江大学率先完成DeepSeekV3与R1模型的本地化部署,并发布深度融合智能体“浙大先生”。随后上海交通大学、清华大学、中国人民大学、武汉大学、湖南大学等多所高校纷纷跟进。AI大模型的广泛应用正在重塑学术研究范式。AI大模型凭借强大的智能搜索与数据分析能力,为学术研究开辟了新的路径。大模型能够精准识别用户研究需求,实现文献、数据集与研究成果的智能推荐。例如,中国人民大学部署本地DeepSeek大模型后,在科研项目辅助、学术资源分析等领域取得显著成效,有效促进了学科交叉创新。大模型为“AI+教育”注入新动能。上海交通大学通过本地化部署DeepSeek千亿级大模型,对高等数学、概率统计、线性代数等课程的AI学习工具进行升级,显著提升了编程指导、论文速读、英文写作等教学辅助效果,推动教学科研管理的智能化转型。AI大模型进入高校人工智能课程体系。多所高校积极更新人工智能通识教育课程内容,以适应技术发展趋势。清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室团队编写的《DeepSeek:从入门到精通》,将大模型功能实操转化为教学资源,丰富了课程教学内容。
大模型可信性问题的技术根源与潜在应用挑战
以DeepSeek为代表的大模型技术应用加速渗透至政务、企业、学术等重要领域,其生成内容的可信性问题日益凸显。根据行业权威VectaraHHEM人工智能幻觉测试,DeepSeek-R1显示出14.3%的幻觉率,是DeepSeek-V3幻觉率(3.9%)的近4倍,也远超行业平均水平。这跟R1加强的“思维链”(CoT)和创造力直接相关。虽然R1在推理、写诗、写小说方面有重大突破,但随之而来的“副作用”就是“幻觉”也多了。大模型“幻觉”现象(生成看似合理但实际错误或虚假的内容,俗称“一本正经地胡说八道”)已成为制约大模型有效应用的关键瓶颈。
技术根源:客观认识数据偏差与推理局限
大模型幻觉现象根植于其技术架构的多重内生性特点,这些核心特点在数据、算法和系统设计层面形成叠加效应,导致生成内容出现系统性失真。一是训练数据偏差的“污染循环效应”。当前人工智能大模型高度依赖互联网来源等开放语料进行预训练,如果大模型训练数据包含大量未经核实或过时的网络文本,则可能将谣言、错误信息、未动态更新数据内化为“伪知识”。更严重的是,强化学习阶段的奖励机制偏好流畅性而非真实性,使得错误信息在模型参数空间形成自增强回路,从而导致“垃圾进—垃圾出”的恶性循环。二是基于统计关联的预测机制导致误差的“蝴蝶效应扩散”。大模型通过大量训练数据学习文字间统计关系来猜测接下来最有可能出现的词。如果某个低概率但错误的内容被选中,那么将开始出现偏差。由于每个采样步骤的微小偏差会在后续自回归生成过程中累积,最终导致误差以指数级放大,导致输出结果“滚雪球似的”整体偏离。三是有限的上下文窗口引发“管状认知偏差”。大模型目前是在一个有限的范围内理解文本。尤其是大模型在解析长文本时,关键信息在注意力机制中的保留率不够高,导致逻辑链断裂后存在认知偏差。这就像是隔着一个小窗口看书,看不到整本书的内容,容易产生理解偏差。四是模型流畅输出设计要求导致“自行脑补现象”。若大模型被问到它没学习过的领域时,基于流畅性设计思路,相较于输出“我不知道”,大模型更倾向于基于已有知识编造看起来合理的答案。特别是在低概率但高复杂度的专业咨询场景中,模型为维持生成流畅性,被迫基于残缺信息虚构内容,其虚构率与问题复杂度呈正相关。
应用挑战:“幻觉”易致信任危机与安全风险
一是涉及政策的信息传播过程中,AI输出虚假信息恐影响政府公信力。在政策解读领域,AI可能虚构政策条款,例如将不存在的社保政策调整内容呈现给公众,或是对现有政策文件进行错误解读。在信息传播方面,AI生成的虚假事件报道、错误的统计数据等,会误导公众对社会事务的认知。长期来看,频繁出现AI幻觉下虚构信息输出的情况,如虚构政策条款、错误解读文件、虚假信息报道,可能引发公众对政府服务的不信任,进而影响政府公信力。二是专业应用中,AI知识偏差与“自作主张”恐导致错误决策。AI“自我发挥”屡见不鲜,部分领域AI知识偏差可能导致严重后果,德国与比利时科研团队联合开展的实证研究揭示了人工智能系统在医疗信息服务领域的潜在风险。基于500个样本的系统分析显示,AI输出内容存在显著可靠性缺陷:其中24%的答案与现有医学知识不符,3%的回答完全错误;从临床风险维度评估,42%的应答可能引发患者轻至中度的健康损害,而22%的错误输出存在导致严重医疗事故甚至危及生命的潜在风险,仅有36%的内容符合医学安全标准。三是科研应用中,虚构文献恐影响学术严谨性与真实性。科研人员通过大模型搜索文献时,AI可能反馈虚假文献引用,编造作者、期刊名称等关键信息,甚至列出多个并不存在的文献,而名称正确的文献也可能会被对应到错误的作者、期刊信息,若不加以甄别恐污染学术资源库,影响学术研究严谨性和真实性。
提升大模型可信性的对策建议
完善数据治理体系,夯实可信基础。建立覆盖数据采集、标注、存储、更新的全流程数据治理框架,推进制订针对政务、医疗等垂直领域数据标准、语义标注、时效性等方面的标准规范。推动建立数据开放社区,支持开源数据集建设,开发高质量数据集,支持企业开发API接口标准化服务包,形成“数据托管—脱敏计算—价值释放”的商业模式,大力发展“数据即服务”新业态。鼓励探索构建人工智能大模型训练数据集动态更新机制,通过监控数据源的变化保持数据集的时效性和准确性,确保数据集的质量和性能。
推动技术优化升级,降低幻觉风险。构建推理增强与验证机制,探索“思维链+双AI验证”模式,要求关键领域输出需经多模型交叉验证。强化隐私计算技术,防止训练数据污染,采用对抗训练、鲁棒优化等技术抵御数据噪声、对抗样本攻击。采用联邦学习与事实校验技术结合对生成内容实时校验。推动安全架构升级,采用零信任理念重构模型安全体系,部署流量清洗中心与AI驱动的威胁检测系统。
动态调整监管策略,耐心陪伴成长。整合科技、司法、伦理等领域资源,探索设立国家级AI伦理审查委员会,统筹推进“技术规范、法律约束、社会伦理”三位一体的治理框架,全面评估AI应用中的各类风险。推动标准规范与风险分级体系建设,加快制定人工智能可信性评估准则,明确模型幻觉率、数据合规性、算法透明度等核心评估指标,建立动态更新机制,持续优化量化监管标准。加强政务人员信息素养与AI技能培训,提升对政务大模型的应用能力与风险鉴别水平,形成“监管—应用—反馈”的良性治理闭环,确保人工智能技术在政务领域的安全、可靠与可持续发展。
构建应用分层管理,探索场景试点。适时发布高中低风险行业人工智能应用指南,基于场景风险等级建立差异化应用管理制度。在医疗诊断、司法裁决、信贷审批等高敏感领域限制大模型直接参与决策,仅作为辅助参考建议;在政策宣传、便民服务等低风险领域鼓励创新应用,通过联网搜索与人工复核结合,控制幻觉率。鼓励先在低风险场景验证模型可靠性,再循序渐进逐步拓展至复杂领域。
(作者单位:国家信息中心)
- 新湘导读