深度求索公司推出开源模型 引发AI产业新一轮数据革命
时间:2025-02-13 03:10
小编:小世评选
(记者 杜峰)近期,深度求索公司(DeepSeek)发布其前沿开源模型DeepSeek-R1,这一举动引发了国内外对AI产业新一轮的关注。各大云计算,如三大运营商云、百度智能云、腾讯云、阿里云和华为云,也相继宣布将上线DeepSeek的最新模型。可以预见,AI产业即将迎来新的发展阶段,而数据作为支撑AI技术的关键要素,将催生出前所未有的产业爆发。
数据作为生产要素的理念,已在我国首次被明确提出,并成为理论创新的重要里程碑。这一理念不仅为我们抢抓人工智能战略机遇奠定了基石,还彰显出数据与AI融合的深刻变革,正在重构各个行业的运行模式。
在制造业方面,中国电信利用5G网络的高带宽和低延迟特点,助力苏州协鑫光伏实现生产设备数据的实时采集与传输,通过AI算法的深度挖掘,协鑫光伏能够准确调整生产工艺参数,智能预测产品良率,确保每一片太阳能电池板都符合行业内最严苛的标准。这一创新为制造业带来了显著效率提升与成本控制。
在医疗领域,中国移动与北京协和医院的合作成果也颇具亮点。通过对历史会诊报告及会诊对话数据的训练和强化,医生们可以借助构建的病历生成模型,处理复杂病例,并推理出会诊意见,提升了会诊效率35%以上。这标志着AI在医疗行业的应用,不仅提升了医生的工作效率,也为患者提供了更为高效的医疗服务。
而在文旅行业,中国联通通过建立“迎客松指挥调度”,实现了对黄山景区数十个系统的数据汇聚、共享和智能应用。有了AI技术的加持,这一不仅能够预测主要景点和道路的人流量,还能及时推送给游客与管理者,从而提升旅游服务水平,优化游客的游览体验。
农业领域同样在数据驱动下迎来了突破。江苏省互联网农业发展中心通过分析稻麦病害的历史调查数据,结合生育期观测、气象和多光谱遥感数据,成功搭建了病害发病概率模型。该模型的提出,不仅使病害发生风险的预测比人工提前了7天,还平均减少了植保用药1-2次,为农业可持续发展提供了新的思路。
高质量的数据是推动AI技术升级的重要动力。北京智源人工智能研究院的张正指出,尽管近年来模型的参数规模有所增长,带来了性能上的提升,但真正能够支持大模型训练的,依旧是高质量的数据集。数据整理的质量和形式将直接影响模型的性能和可靠性。
根据德勤(Deloitte)的预测,人工智能基础数据服务市场将因核心产业的发展而保持高速增长,到2027年,其市场规模预计达到130-160亿元。而IDC的研究表明,中国的数据规模预计将从2022年的23.88ZB增长至2027年的76.6ZB,复合年均增长速度达到26.3%,为大模型的持续迭代和优化提供了丰富的数据生命线。
当前在数据建设过程中面临的问题也不容忽视。一方面,数据质量参差不齐,许多模型的训练需要海量的数据,但同样也存在着噪声和偏见,这将不可避免地影响大模型的性能。河南省商业经济学会的胡钰指出,在互联网内容资料中,中文数据的比例不足2%,且存在着质的差异。
另一方面,数据孤岛现象仍然是一个显著问题。不同部门、系统之间难以实现数据共享和整合,使得数据资源的分散化和无法充分利用,极大地限制了数据的流通。尤其是在企业内部,各个部门往往拥有独立的数据系统,数据格式和语义的不一致,也阻碍了有效的数据交换。
国家数据局局长刘烈宏强调,构建适应人工智能发展的数据开放、共享、流通、交易模式至关重要,以提高数据资源的开发及利用水平。数据需做到“供得出、流得动、用得好”,才有可能成为推动AI发展的催化剂,助力数字经济的飞速发展。
打造高质量的语料数据成为各方努力的方向。中国信息通信研究院人工智能研究中心的燕江依认为,高质量的人工智能数据集必须具备可靠性、准确性、完整性、多样性、标注精确性、安全性、均衡性和及时性等八项特征。只有通过多方联动、构建完善的人工智能数据生态,才能推动高质量数据集的建设发展。
在政策层面,国家数据局去年底联合多个部门印发了关于促进企业数据资源开发利用的指导意见。此举旨在引导企业朝着人工智能发展方向开发高质量数据集。四川省也率先发布了首批8个人工智能高质量数据集,这些数据集利用了四川省的海量数据资源,涵盖了医药研制、商贸流通等多个应用场景。
目前,国家数据局已部署了多座城市,承担数据标注基地建设任务,以探索数据产业的高质量发展路径。在这些城市中,沈阳和长沙等地的实际案例显示,数据标注与管理的专业化将为人工智能提供基础支撑,有效推动各个领域的创新与进步。
深度求索公司推出的开源模型DeepSeek-R1标志着AI产业的新篇章,而以数据为核心的革命正为这一行业注入全新活力,未来的AI应用场景将更加丰富多元。