北大团队发布综述:提高隐私保护下机器学习效率的新策略
时间:2025-08-06 22:55
小编:小世评选
在当今对数据隐私保护日益重视的人工智能时代,如何在保障用户个人信息安全的前提下实现高效的机器学习模型运作,已经成为了学术界与工业界亟待解决的一个重大课题。为应对这一挑战,北京大学团队近期发布了一篇题为《Towards Efficient Privacy-Preserving Machine Learning: A Systematic Review from Protocol, Model, and System Perspectives》的综述文章,系统性地探讨了隐私保护机器学习(PPML)领域中的优化策略,为今后的研究提供了清晰而有益的方向指引。
该综述论文由北京大学的助理教授李萌带领的研究团队与蚂蚁集团的多名研究者共同完成,论文不仅对现有文献进行了全面梳理,而且首次从协议、模型和系统三个层面提出了统一的视角,帮助学术界和工业界更好地理解隐私保护下的机器学习技术的发展现状及未来方向。
随着机器学习技术的逐渐普及,数据隐私问题愈发引起了社会的关注。虽然密码学协议可以为用户数据提供严格的安全保障,但在实际应用中,其带来的通信开销与计算瓶颈往往令这一方法难以推广。综述中指出,当前的隐私保护协议存在若干核心问题:基于不经意传输(OT)协议遇到高昂的通信开销,且基于同态加密(HE)的协议则面临严重的计算效率瓶颈;现有协议设计未能充分考虑模型的固有结构特性,如稀疏性和量化鲁棒性,导致缺乏“模型感知”的优化设计。
在论文的讨论中,团队分别从线性算子和非线性算子两个角度探讨了协议的设计与发展脉络,明确指出在特定应用场景下应选择何种协议,并讨论了不同的HE编码方式。研究还探讨了在交互式与非交互式协议框架下的图级协议设计,包括秘密分享与HE之间的转换,以及全同态运算中的自举方案等。通过这样的系统化讨论,研究者们对编码方案进行了并明确了其在提升PPML模型效率中的重要性。
值得注意的是,尽管在协议与模型层面进行了多维度优化,系统层级的“协议特性感知”仍是进一步提升PPML性能的关键。在这方面,综述文章推荐了两个主要的优化方向:第一,编译器设计方面的改进,包括协议特性感知、灵活编码及自举支持的探讨;第二,GPU设计的优化,分别涉及到操作层面的加速与PPML系统层面的提升,并呈现了在现有GPU加速实现中,典型PPML工作负载的执行时间对比,提供了有价值的技术。
该综述明确指出,面对大规模模型的时代,仅仅在单一层面优化已无法满足对隐私和效率的双重需求,因此必须跨层级地协同优化PPML方案。研究提出了未来的几个重要研究方向,包括协议、模型与系统的协同优化设计、构建面向大型模型隐私推理的隐私计算方案,以及时下热门的轻量化隐私计算方案,特别是在边缘设备上的应用。
李萌教授课题组近年来围绕这一领域也开展了一系列深入研究工作,呼吁相关领域的老师和同学们积极交流心得,共同推进隐私保护技术的发展。综述文献了课题组已发表的相关研究成果,涵盖了从理论探讨到算法实现、系统设计的各种工作,展现出课题组在隐私保护机器学习领域的重要贡献。
在探索PPML的过程中,本文详细讨论了跨层级优化所带来的挑战与机遇。其中,模型与协议、协议与系统间的相互影响被反复强调,指出了模型量化对PPML效果的复杂性,如非线性层的优化对全局性能提升的有限作用,以及现代GPU为明文机器学习带来的效率提升和其对高精度模块化算术的挑战。
综述还特别关注大型模型的特点,与传统模型相比,这种模型在PPML中面临着不同的挑战。除了不需要训练的优化方案,专家们还建议探索使用参数高效的微调技术(例如LoRA等)以构建更适合PPML的模型架构。
该综述不仅为研究者们提供了系统的知识框架,而且为未来的研究指明了方向,将有助于促进隐私保护下高效机器学习技术的进一步发展。