我国人工智能训练数据生产与流通面临挑战,专家提出政策
时间:2025-06-06 05:05
小编:小世评选
随着人工智能技术的快速发展,训练数据的数量与质量愈发成为决定其模型性能的关键因素。当前我国在人工智能训练数据的生产与流通方面正面临着重要挑战。据专家分析,数据的数量不足、质量低下以及分布散乱,成为制约我国在该领域发展的瓶颈。这些问题不仅受到商业生态的影响,还受到监管政策和公共数据开发利用等多方面因素的制约。
训练数据的质量直接影响到人工智能模型的效果,而高质量的数据需要大规模、多样化的输入。尽管我国在某些应用领域已取得显著成就,但整体水平与国际先进水平存在较大差距。专家提出了多项政策建议,旨在解决训练数据生产和流通中的问题。这些建议包括:鼓励科研机构提供开源数据集,创建更多的人工智能应用场景,采用“宽进严出”的监管思路,设立豁免条款,完善实施细则,以及加快建立全国统一的公共数据等。
由于高质量的数据在市场上的稀缺性,企业对优质数据的竞争愈发激烈。现实中很多公司由于缺少强有力的技术手段和市场导向,难以有效收集和共享高质量的数据。例如,ChatGPT等模型在训练过程中需要通过高质量的数据支撑,“冷启动”的环节尤为考验数据的获取能力。同时,许多企业在自动驾驶等领域发现,以往积累的大量路测数据在新技术背景下变得几乎无用,这凸显了数据收集及标注方式与技术演进之间的复杂关系。
但是产生了商业生态中的一些问题。一些企业因为股东的干预及风险规避,往往更倾向于集中资源于低风险的项目上,导致训练数据的单一和重复性,无法形成更加多样化的优质数据基础。同时,初创企业受到风投资本的短期利益驱动,忽视对核心数据的积累,也使得整体技术水平难以突破。
为了推动数据的流通,政策不仅需要解决生产端的低效问题,更要优化流通环节的监管。在现有的监管框架下,企业通常面临着过高的合规成本,而现行的《著作权法》在指导数据获取方面显得过于严格,使得合法数据使用的成本大幅度提高。
以日本和以色列国家为例,这些国家在版权问题上采取了更加灵活的立场,允许在一定条件下的“合理使用”原则,为数据的获取与使用提供了较大的法律空间。针对数据处理与安全方面的监管,亦应关注如何降低合规成本,从而促进企业在数据采集及利用方面的积极性。
因此,建议我国在考虑数据隐私与安全之余,制定更加明确的合规指引,通过建立免责条款和标准化的流程,以降低企业的合规风险。同时,各行业主管部门应当快速响应,整合各方资源,建立全国统一的数据流通,以提高数据在行业间的流动性和使用效率。
在技术发展水平越发紧迫的背景下,加速构建高质量的科研数据体系也是亟需的措施。科研机构应当承担起开放数据的责任,鼓励科研人员在课题申请及考核中,积极参与到数据集的创建和维护中。可以引入类似于专利期的保护制度,以激励科研人员更好地利用原创数据推动科研。
总体而言,要促进我国人工智能的数据生产与流通,必须采取多方并举的策略:通过政策引导科研机构与企业相结合,鼓励优质数据的生成与共享;建立全国统一的数据打破地方保护主义;以及充分利用已有的开源技术,降低各地间的数据共享与流通成本。唯有如此,才能在全球竞争中形成具有优势的人工智能产业生态。
未来,我国在解决训练数据流通中的法律、政策及市场障碍时,亦需不断借鉴国际经验,整合资源,确保我国在人工智能领域创造出更长久的竞争优势,实现经济与技术的双重发展。