人工智能产业迈向数据中心化，高质量数据集成为关键

时间：2025-09-05 00:00

小编：星品数码网

随着大规模模型和人工智能技术的迅速发展，人工智能行业正在经历一场深刻的变革，逐步从“以模型为中心”转向“以数据为中心”的新阶段。在这一过程中，高质量数据集被视为提升人工智能能力和加速“人工智能+”各领域落地应用的关键支撑。

回顾早期，业界普遍存在“数据越多越好”的误区，当时数据集的建设主要围绕数据的“大规模”特征进行，许多人认为只要收集足够数量的数据，就可以训练出更加优秀的模型。随着实际应用的发展，庞大而低质量的数据集所带来的问题逐渐浮出水面，限制了模型的智能表现。因此，越来越多的专家开始认识到，高质量数据集实际上成为了提升大模型“智商”的核心要素。数据清洗、标注和标准化的工作也因而受到了高度重视。

当前，伴随着人工智能在工业制造、医疗健康、教育等领域的实际应用，高标准高质量的数据集变得尤为重要。通用型高质量数据集往往无法满足细分市场的特定需求。这就意味着，行业特定、高应用价值的数据集建设将显得极为迫切。早在今年5月，国家数据局就发布了《数字中国建设2025年行动方案》，明确指出要加强交通、医疗、金融、制造、农业等领域的数据标注工作，建设行业高质量数据集，从政策层面上为数据集的建设提供了明确的方向。

在推动高质量数据集建设的过程中，行业依然面临诸多挑战。一方面，数据采集标准和转化机制亟待进一步完善。尽管各级公共数据在数据整合能力上不断提升，企业数字化转型也在加速推进，但由于数据的标准不一、采集误差和缺失等问题，许多数据在实际使用中却呈现出分布偏差和颗粒度不均的情况，使得大量数据难以直接应用。为了将数据资源有效转化为可供人工智能型号使用的高质量数据集，应用端的数据治理、标注、评估和开发利用机制亟需进一步完善。

数据治理技术的融合创新也亟待加强。行业高质量数据集通常是数据资源与专业知识的结合，而目前而言，许多行业专属数据集依然依赖人工标注，因此，智能化、自动化标注工具和精准的数据合成技术的引入显得十分必要，以提升数据集的生产效率，满足各细分领域对数据集规模、质量和附加知识的多重需求。

高质量数据集的专项支持政策仍需完善。由于高知识密度和应用价值的数据集开发周期较长，成本也较高，加之复用率低，数据的价值转化路径模糊，市场回报机制不明确，导致缺乏针对行业专属数据集的投资或补贴政策。这使得高质量数据集在流通时面临诸多障碍，如流通速度慢、责任划分不清等，影响到供需双方的积极性和交易规模。

为应对这些挑战，业界需要共同努力，形成涵盖资源汇聚、流通、应用以及技术创新和制度建设的高质量数据集建设体系，以有效支持人工智能的创新与发展。以下是几项建议：

第一，畅通高质量数据集的流通渠道。将高质量公共数据集纳入公共数据管理系统，旨在实现集中有效的管理，使其能够高效调用和智能应用。同时，鼓励打造高质量数据集的开放，提供面向企业和社会公众的数据普惠供给。还需结合市场需求，定向开展高质量数据集的融合建设，提升市场化供给能力。

第二，加大高质量数据集相关技术攻坚力度。聚焦数据标注、数据融合等关键环节，鼓励研发智能化、自动化的标注工具，提升标注的效率和精准度。同时，促进跨行业的数据标准建设，破解“数据孤岛”的问题，以推动数据合成等技术的迭代创新，探索模拟稀缺高质量数据集的有效路径。

，健全数据集建设的政策保障制度。应充分发挥数据标准化技术委员会的作用，推动高质量数据集的格式、质量和流通标准的建设。要探索原创数据集的确权、价值评估、流通交易和收益分配机制，培育可持续的供给生态。

推动高质量数据集的建设，是推动人工智能技术应用、实现各行业数字化转型的重要任务。在此过程中，只有通过多方的共同协作，建立和完善相关的政策、技术和市场机制，才能为人工智能助力各行业的发展注入更加坚定的动力。

人工智能产业迈向数据中心化，高质量数据集成为关键

精品推荐

相关文章