• +1

深圳观察|从“卖数据”到“卖能力”,词元交易如何重塑深圳产业竞争力?

2026-06-16 09:40
来源:澎湃新闻·澎湃号·政务
字号

文|李恩汉 综合开发研究院(中国·深圳)通证数字经济研究中心主任,经济学博士后

近日,国家数据局正式发布《关于推进行业高质量数据集建设行动的实施方案》(以下简称《实施方案》),首次以正式政策文件明确提出“探索词元交易等新型交易模式”,并鼓励数据集在数据交易所挂牌交易。与征求意见稿相比,正式稿部署了强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动,形成了“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的完整数据飞轮逻辑。这不仅仅是一个停留在概念层面的政策信号——截至2026年一季度,全国已建成高质量数据集超11.6万个,总量超960PB,日均Token调用量突破140万亿。词元交易正在从政策构想走向产业现实。面对这一战略部署,深圳作为中国特色社会主义先行示范区和数据要素市场化改革的排头兵,完全具备率先破局的条件。深刻理解词元交易的运行机制,并借此契机对接国家2028年高质量数据集建设目标,对深圳赋能优势产业集群、打造人工智能先锋城市具有重大战略意义。

一、词元交易改变了什么

要理解词元交易为什么是破局方向,首先需要回到技术本源。“词元”(Token)是大模型处理信息的最小计量单元。就像电费按度计价、流量按GB计费一样,词元是AI时代的“度”——模型每处理一个词元,就是一次可计量的智能服务消耗。在国家数据局的最新语境下,它被正式定位为智能时代的“价值锚点”以及连接技术供给与商业需求的“结算单位”。

(一)从产业经济学的角度来看,国家推行“词元交易模式”,本质上是推动数据要素流通范式发生三大深层次跃迁。

第一,从“卖数据”向“卖能力”跃迁。传统数据交易更像一次性买断,买方承担数据清洗与隐私风险。词元交易围绕模型推理和训练过程付费,本质是交易“智能服务能力”,原始数据可以在合规前提下沉淀在平台或数据方,不必大规模流转,从根本上保护了数据安全。《实施方案》明确提出推动商业模式“从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升”,正是对这一跃迁方向的政策确认。

第二,从“粗放计价”向“精细计量”跃迁。词元作为一个统一、可量化的中间介质,为“数据要素”转化为“智能产出”搭建了精准计价的桥梁。政策层面提出“构建以词元为基础、可量化、可定价的数据价值体系”,让数据集的价值能够通过模型调用量直接反映并结算。

第三,从“静态资产”向“可流通的生产资料”跃迁。借助词元交易机制,数据背后的模型调用被按量运营,使得数据能够顺畅地与质押融资、资产入股等金融实践深度结合,真正让数据变成可持续“生息”的新型数字资产。《实施方案》鼓励的“以数换数”“数模互换”“数据托管”“数算一体”等新模式,正是这一跃迁在交易形态上的具体展开。

(二)从产业效能提升上,词元交易为AI企业及实体产业带来了“三降两提升”的显著变化。

“三降”即降低算力使用门槛,借助国产词元的低价优势及灵活计费模式,中小企业也能低成本获得大模型能力;降低试错成本,企业可小规模购买词元进行模型测试和场景验证,视效果再扩容,无需一次性投入大规模硬件;降低合规成本,敏感数据在合规安全环境中就地调用和训练,减少了跨边界流转的风险和重复存储成本。“两提升”即提升模型与场景匹配度,基于行业高质量数据集进行训练和推理,模型更贴合真实业务;提升数据周转效率,可计价的词元机制加快了数据、模型、算力之间的高频互动闭环,大幅提升了从数据采集到模型迭代的流转速度。

二、深圳率先探索词元交易的先天优势

在全国众多城市中,深圳为何最有条件把国家关于“词元交易”的探索方向转化为地方先行实践?答案在于深圳在制度保障、平台生态与产业布局上形成了高度的战略共振。

首先,前瞻性的立法奠定了坚实的制度基础。深圳在数据要素市场化改革方面起步早,已被中央赋予综合改革试点任务。作为全国首部数据领域地方立法《深圳经济特区数据条例》的城市,深圳为数据确权、流通机制构建及收益分配提供了强有力的地方立法基础。

其次,成熟的平台生态提供了广阔的交易腹地。深圳数据交易所目前已高标准建设完成,上架交易标的超过4000个,打造了27个行业特色数据专区,并成功引入各类经营主体超5000家。作为定位为“全国性数据交易平台”的关键枢纽,深圳数据交易所被明确要求服务人工智能语料共享与交易。值得关注的是,深圳已率先落地语料券制度,7家企业10个数据集已上架开放,彩田湾区数智港“数交所+产业园”模式正在打通数据交易与产业应用的“最后一公里”。此外,在深港跨境数据流动方面,“深港跨境数据验证平台”等成熟实践,也为探索更复杂的数据与词元跨境交易新模式打下了坚实的实践基础。

最后,产业政策与国家导向实现了无缝对接。深圳聚集AI规上企业超2600家,出台的《加快打造人工智能先锋城市行动计划(2025—2026年)》中明确提出,要“充分利用深圳产业优势,持续构建行业语料集,支撑垂类模型训练”。这种将数据供给与AI产业发展深度绑定的地方政策,与国家数据局推动行业高质量数据集建设的目标高度契合。

三、词元经济重塑优势产业核心竞争力

有了制度、平台和产业的基础,词元交易在深圳的落地不是“能不能”的问题,而是“在哪些领域先跑”的问题。具体到深圳的标志性优势产业,词元交易的赋能路径清晰可见。

(一)智能制造:从买数据到买能力,激活制造生态的数据共享意愿。

智能制造涉及海量来自生产线、设备和供应链的结构化与非结构化数据。引入行业高质量数据集与词元交易后,制造企业无需组建庞大的算法团队或自建算力中心,只需通过购买词元额度,即可按需调用已经在行业数据集上训练成熟的模型(如视觉质检、预测性维护、工艺优化等),大幅降低了智能化改造的启动门槛。更重要的是,提供数据的设备厂商也能依据词元消耗获得分润,实现“数据上链、模型分润、收益可见”,从而激活整个制造生态的数据共享意愿。

值得注意的是,《实施方案》明确点名“具身智能”,而深圳正是国内具身智能产业的核心阵地。从优必选的人形机器人到众多工业协作机器人企业,具身智能对高质量多模态交互数据集的需求极为迫切——机器人需要在真实场景中持续学习抓取、避障、协作等能力,这些能力的获取高度依赖词元化的数据集调用与训练。深圳完全有条件率先构建“具身智能数据集+词元结算”的产业闭环。

(二)生物医药:数据“就地可算”,破解研发的数据壁垒。

生物医药研发对数据隐私要求极高,临床数据、组学数据、真实世界研究(RWS)数据往往难以流通。在词元交易模式下,数据可以在合规的安全算力环境中“就地可算”。药企和外部科研机构仅需通过词元调用模型接口,原始敏感数据绝不外流。深圳完全可以围绕药物发现、靶点筛选、临床试验设计等关键环节,打造一批“数据集+模型+词元结算”的创新平台,在守住安全底线的同时,极大提升研发效率。

(三)自动驾驶:按场景精准购买词元,加速城市级闭环。

自动驾驶高度依赖高精度、多场景、多天气的庞大感知与交通数据。深圳交通密集、开放场景丰富。通过建立高质量交通感知数据集并结合词元交易,车企及算法公司可以“按路线、按场景、按迭代周期”精准购买词元,用于仿真训练、模型调优和城市级验证,摒弃了从零自建基础设施的沉重包袱。同时,城市管理部门亦可通过路侧设施数据参与价值分配,在保障公共利益前提下推动智能网联汽车产业的良性发展。

(四)低空经济:深圳无人机产业集群,就是词元范式最好的试验场

《实施方案》将低空经济列为创新领域,而深圳拥有全球最密集的无人机产业集群——从大疆的消费级无人机到丰翼的物流无人机,再到亿航的载人eVTOL,低空飞行器的研发、测试与运营产生了海量的感知、气象、空域和航线数据。这些数据天然具备多源异构、高频更新、强时空关联的特征,正是高质量数据集建设的理想场景。通过词元交易,无人机企业可以按飞行区域、按任务类型精准调用已训练成熟的避障模型和航线优化模型,无需每家企业从零积累;空管部门则可通过空域数据参与词元分润,在保障安全的前提下激活低空数据要素的市场化流通。深圳完全有条件率先构建“低空感知数据集+词元结算”的产业范式,为全国低空经济的数据要素化探路。

四、锚定2028年国家目标的“深圳路径”

《实施方案》给出了清晰的时间表,到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,并形成一批建设标准和工具。更关键的是,正式稿首次系统阐述了“数据飞轮”逻辑——“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”,这不仅是政策层面的机制设计,更是词元交易得以持续运转的根本动力。深圳要做的,就是让这个飞轮在深圳的产业土壤中真正转起来。

具体而言,深圳可全面实施“四个对接”战略,打造全国高质量数据集建设的标杆。

一是在重点领域上精准对接。依托深圳在智能制造、生物医药、自动驾驶、金融科技等行业的完备产业链和丰富应用场景,将海量的产业数据优势系统性地转化为具备全球代表性的行业高质量数据集。特别值得关注的是,《实施方案》新增点名了智能体、具身智能和世界模型等重点方向,以及低空经济等创新领域,深圳在这四个领域均有扎实的产业基础——从优必选等具身智能企业到全球领先的无人机产业集群,深圳完全有能力率先布局对应领域的高质量数据集。

二是在工程化标准上引领对接。顺应国家关于“形成一批建设标准和工具”的要求,深圳应充分发挥本地龙头企业、高校院所和标准化机构的优势,主动参与甚至牵头制定行业数据采集、清洗、标注、脱敏、评测的国家与行业规范,将丰富的产业实践沉淀为可复制推广的工程方法。这与《实施方案》“标注攻坚”和“提质增效”两个专项行动直接对应——深圳的标准化实践,应成为全国高质量数据集建设的工程化标杆。

三是在平台载体上枢纽对接。深度用好深圳数据交易所及各类行业大数据平台,将高质量数据集在合规前提下沉淀到统一的平台体系中。鼓励发展挂牌、订阅、定制等多元化服务形态,构建从“数据集”到“模型服务”再到“终端应用”的一体化供给能力。这正是“数据飞轮”运转的关键枢纽——数据在平台上汇聚,模型在平台上训练,能力通过词元在平台上交易,应用场景的反馈又回流驱动数据迭代,形成闭环。

四是在企业与人才培育上生态对接。通过重大项目支持、赛道引导、资本对接等综合手段,大力培育一批专注行业数据集建设与运营的专业化“新型数据企业”。鼓励这些企业与大模型厂商、行业龙头共建生态,让国家关于培育领先数据企业的目标在深圳率先开花结果。国家数据局已部署140个先行先试工作单位、推广104个典型案例、确定72家链主单位,深圳应积极争取更多先行先试落地,让本地企业在国家数据集建设体系中占据关键节点。

在人工智能加速演进的历史关口,词元交易一端连接着国家《实施方案》的战略目标,另一端连接着深圳实体产业向智能化跃升的迫切需求。只要深圳在制度创新、技术路径验证和商业模式探索上持续协同发力,完全有能力在2028年前后,形成一批既能代表中国高度、又具有湾区特色的“深圳样板”,为全国数据要素市场化改革和智能经济的跨越式发展贡献不可替代的深圳经验。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2026 上海东方报业有限公司