人工智能产业迈向数据中心化,高质量数据集成为关键
时间:2025-09-05 00:00
小编:星品数码网
随着大规模模型和人工智能技术的迅速发展,人工智能行业正在经历一场深刻的变革,逐步从“以模型为中心”转向“以数据为中心”的新阶段。在这一过程中,高质量数据集被视为提升人工智能能力和加速“人工智能+”各领域落地应用的关键支撑。

回顾早期,业界普遍存在“数据越多越好”的误区,当时数据集的建设主要围绕数据的“大规模”特征进行,许多人认为只要收集足够数量的数据,就可以训练出更加优秀的模型。随着实际应用的发展,庞大而低质量的数据集所带来的问题逐渐浮出水面,限制了模型的智能表现。因此,越来越多的专家开始认识到,高质量数据集实际上成为了提升大模型“智商”的核心要素。数据清洗、标注和标准化的工作也因而受到了高度重视。
当前,伴随着人工智能在工业制造、医疗健康、教育等领域的实际应用,高标准高质量的数据集变得尤为重要。通用型高质量数据集往往无法满足细分市场的特定需求。这就意味着,行业特定、高应用价值的数据集建设将显得极为迫切。早在今年5月,国家数据局就发布了《数字中国建设2025年行动方案》,明确指出要加强交通、医疗、金融、制造、农业等领域的数据标注工作,建设行业高质量数据集,从政策层面上为数据集的建设提供了明确的方向。
在推动高质量数据集建设的过程中,行业依然面临诸多挑战。一方面,数据采集标准和转化机制亟待进一步完善。尽管各级公共数据在数据整合能力上不断提升,企业数字化转型也在加速推进,但由于数据的标准不一、采集误差和缺失等问题,许多数据在实际使用中却呈现出分布偏差和颗粒度不均的情况,使得大量数据难以直接应用。为了将数据资源有效转化为可供人工智能型号使用的高质量数据集,应用端的数据治理、标注、评估和开发利用机制亟需进一步完善。
数据治理技术的融合创新也亟待加强。行业高质量数据集通常是数据资源与专业知识的结合,而目前而言,许多行业专属数据集依然依赖人工标注,因此,智能化、自动化标注工具和精准的数据合成技术的引入显得十分必要,以提升数据集的生产效率,满足各细分领域对数据集规模、质量和附加知识的多重需求。
高质量数据集的专项支持政策仍需完善。由于高知识密度和应用价值的数据集开发周期较长,成本也较高,加之复用率低,数据的价值转化路径模糊,市场回报机制不明确,导致缺乏针对行业专属数据集的投资或补贴政策。这使得高质量数据集在流通时面临诸多障碍,如流通速度慢、责任划分不清等,影响到供需双方的积极性和交易规模。
为应对这些挑战,业界需要共同努力,形成涵盖资源汇聚、流通、应用以及技术创新和制度建设的高质量数据集建设体系,以有效支持人工智能的创新与发展。以下是几项建议:
第一,畅通高质量数据集的流通渠道。将高质量公共数据集纳入公共数据管理系统,旨在实现集中有效的管理,使其能够高效调用和智能应用。同时,鼓励打造高质量数据集的开放,提供面向企业和社会公众的数据普惠供给。还需结合市场需求,定向开展高质量数据集的融合建设,提升市场化供给能力。
第二,加大高质量数据集相关技术攻坚力度。聚焦数据标注、数据融合等关键环节,鼓励研发智能化、自动化的标注工具,提升标注的效率和精准度。同时,促进跨行业的数据标准建设,破解“数据孤岛”的问题,以推动数据合成等技术的迭代创新,探索模拟稀缺高质量数据集的有效路径。
,健全数据集建设的政策保障制度。应充分发挥数据标准化技术委员会的作用,推动高质量数据集的格式、质量和流通标准的建设。要探索原创数据集的确权、价值评估、流通交易和收益分配机制,培育可持续的供给生态。
推动高质量数据集的建设,是推动人工智能技术应用、实现各行业数字化转型的重要任务。在此过程中,只有通过多方的共同协作,建立和完善相关的政策、技术和市场机制,才能为人工智能助力各行业的发展注入更加坚定的动力。

