数智化时代，，，，，怎样建设切合主流价值观的语料库

2026-03-04 03:13:22

习近平总书记指出，，，，，在移动互联网、大数据、超等盘算、传感网、脑科学等新理论新手艺的驱动下，，，，，人工智能泛起出深度学习、跨界融合、人机协同、群智开放、自主操控等特征，，，，，正在对经济社会生长、国家治理、国际名堂等爆发重大而深远的影响。。。。。。。

在聚力国产大模子立异及其应用场景拓展的配景下，，，，，实现网络空间场域价值引领是人工智能生长的主要问题。。。。。。。从手艺角度看，，，，，人工智能是价值中立的。。。。。。。但从社会意识角度看，，，，，人工智能是承载价值的手艺。。。。。。。在算法和语料的加持下，，，，，人工智能信息交互不可阻止地保存价值引领，，，，，会潜移默化地对头脑与看法爆发影响。。。。。。。

新形势下，，，，，要在大模子生长竞争中掌握价值主导权，，，，，必需有规范的语料库为基座支持。。。。。。。语料库特指经由系统化收罗、结构化处置惩罚的大规模真实语言数据荟萃，，，，，既包括通用语料库与专用语料库，，，，，也包括单模态语料库与多模态语料库。。。。。。。加速建设主流价值观语料库，，，，，可以为主流价值观引领提供底层支持，，，，，为意识形态领域危害应对提供清静包管，，，，，是推感人工智能手艺向善生长的一定要求。。。。。。。

主流价值观语料库建设是增强主流价值观引领的底层支持——

主流价值观语料库建设可以为大模子立异提供预训练语料。。。。。。。通过构建多泉源、多渠道、全模态数据系统化收罗系统，，，，，周全检索、整理、分类、标注语料，，，，，收录与主流价值观相关的图文、音视频等多模态语料，，，，，包括经典文献、政策文件、向导人讲话、新闻报道、优质文化产品、优异网络作品等，，，，，运用自然语言处置惩罚手艺剖析语料资源的语法结构和语义特征，，，，，形成易于检索和明确的语义单位，，，，，再经由信息净化、知识提纯、价值观校准等多层过滤，，，，，标注价值标签，，，，，结构权威性、多样性、时代性、结构化、涵盖多种前言和表达形式的语料资源池，，，，，为大模子立异与应用提供权威性的、切合主流价值观的预训练语料。。。。。。。

主流价值观语料库建设可以展示国家文化软实力。。。。。。。在大模子立异、撒播和应用历程中，，，，，语料库所提供的语料可以展示国家的价值理念、品德民俗和文化特色，，，，，增强受众的国家认同感和归属感，，，，，提升国家形象和影响力。。。。。。。作为话语权竞争工具，，，，，主流价值观语料库通过对中华优异古板文化、新时代主流意识形态话语等语料的吸收，，，，，推动场景式、强交互的数字表达，，，，，为中国叙事、中国故事提供富厚的素材和案例，，，，，使应用场景更具中国文化特色，，，，，在价值引领与文化撒播中展现出更为显著的优势。。。。。。。

主流价值观语料库构建是应对意识形态危害的清静包管——

大模子承载的价值属性，，，，，使其应用保存显着意识形态危害。。。。。。。ChatGPT等大模子的训练数据主要泉源于英文语料，，，，，原始数据集保存的种族、性别、阶级结构会导致原始偏误的撒播，，，，，如以男性或白人为主的数据集训练出来的算法会对女性或其他族裔爆发歧视，，，，，其他歧视性言论、敏感信息等消极、负面语料供应将爆发意识形态危害。。。。。。。

主流价值观语料库建设可以提升大模子语料时效性与准确性。。。。。。。主流价值观语料库中经由筛选的语料，，，，，可以作为判断信息真伪、区分头脑倾向的主要依据。。。。。。。一方面，，，，，通过研发价值观语义剖析模子，，，，，对文本价值观举行语义剖析，，，，，识别其中的情绪色彩、价值导向等要害信息，，，，，资助系统更准确地明确文本内容。。。。。。。另一方面，，，，，通过按期筛选、更新语料库，，，，，镌汰过时或低质量内容等方法，，，，，确保语料规范、准确，，，，，有用提升意识形态领域危害防控的针对性和精准度。。。。。。。

主流价值观语料库建设可以提升网络空间治理的规范性。。。。。。。语料库可以凭证与主流价值观契合水平举行量化指标设计，，，，，确定分类分级标准，，，，，并凭证网络信息内容质量举行多维度评估，，，，，锁定违反执律例则、破损社会稳固、煽惑民族恼恨等违法和不良信息，，，，，助力网络综合治理。。。。。。。同时，，，，，语料库内容可以翻译成多国语言，，，，，天生多模态内容，，，，，以音视频等通俗化、可视化形式泛起，，，，，富厚国际撒播内容矩阵，，，，，打造国际话语撒播相助机制，，，，，助力中国起劲加入国际网络空间治理。。。。。。。

主流价值观语料库建设是推下手艺向善生长的一定要求——

主流价值观语料库建设可以解决信息异化问题，，，，，规范大模子立异与应用的伦理价值。。。。。。。人工智能要素涉及大宗伦理价值，，，，，研发职员、预训练数据等都需要遵照人类配合的伦理价值。。。。。。。主流价值观语料库提供的语料，，，，，能够指导大模子以起劲、康健、正面的方法与用户举行交互，，，，，阻止低俗、暴力、色情等违法和不良信息撒播；；；；；通过算法推荐，，，，，突破信息茧房，，，，，为用户提供多元、平衡的信息源，，，，，增进信息生态康健生长，，，，，富厚公众信息内容，，，，，镌汰盲目跟风与极端言论的爆发。。。。。。。

主流价值观语料库可以通过伦理审查、危害评估等增强教育针对性和实效性。。。。。。。伦理审查、危害评估能够确保算法设计与产品功效切合人类社会的伦理规范和品德准则，，，，，推感人工智能手艺向越发清静、可信、可靠、有益的偏向生长。。。。。。。好比，，，，，在具身智能生长历程中，，，，，塑造智能体的行为准则和价值取向，，，，，确保其不违反伦理原则。。。。。。。通过语料网络、知识标识、价值观校准等事情，，，，，形成建设基准及操作手册，，，，，使具身智能坚持向善的伦理维度。。。。。。。

总之，，，，，语料库是包括价值观的数据荟萃。。。。。。。主流价值观语料库建设应当成为大模子立异生长的题中应有之义。。。。。。。要在增强与完善顶层设计的基础上，，，，，明确语料库建设标准，，，，，发动政府、社会、市场等多元主体配合加入，，，，，构建一体化数据平台，，，，，实现语料资源的集中存储、统一治理、高效使用，，，，，确保大模子立异生长与应用切合社会主义焦点价值观要求，，，，，确保朝着有益、清静、公正偏向康健有序生长。。。。。。。

（作者划分为上海工程手艺大学教授刘志欣、上海工程手艺大学中共党史党建研究院研究职员李心怡）

栏目主编：王珍题图泉源：新华社

本文系国家社科基金项目《紧迫状态与常态治理的耦合及其法治化路径研究》【21BFX 045】阶段性研究效果

泉源：作者：刘志欣李心怡<中泰财税咨询有限公司/p>

PT视讯(中国区)官网