谷歌推出Gemini API URL Context功能，提升AI网页内容“阅读”能力

时间：2025-09-15 19:50

小编：星品数码网

最近，谷歌在其AI技术领域又迈出了重要一步，推出了旨在提升人工智能处理网页内容能力的新功能——Gemini API的URL Context。这一创新功能在5月28日于Google AI Studio中首次亮相，标志着我们在人工智能和网页内容交互方面的又一次技术进步。

谷歌的产品负责人Logan Kilpatrick对URL Context功能表示极高的期望，甚至建议用户将其作为默认选项进行使用。URL Context究竟与传统的链接处理方式有什么不同呢？

URL Context在处理深度和机制上有着本质的区别。以往，当用户将一个链接发送给AI时，AI通常通过外部的浏览工具或搜索引擎插件来获取网页内容。这种方式多半只能读取网页的简要信息或部分文本，使得整体理解极为有限。而URL Context则是为开发者量身定制的一种编程接口（API），允许深入处理给定URL中的信息。当开发者在应用程序中调用此功能时，Gemini会将链接所包含的全部内容（最大支持34MB）作为回答下一个问题的唯一且权威的上下文，确保理解的全面性与准确性。

该功能具备强大的解析能力，支持多种文件格式的深度解析，如PDF、HTML、JSON、CSV等。它甚至能分析PDF中的复杂数据结构，比如表格和脚注。对于常见的图像格式，比如PNG及JPEG，URL Context也可以理解其中的图表和图示，这意味着AI能够从更丰富的多媒体资源中提取信息。

在Google AI Studio中，开发者可以直接体验这一新颖功能，官方API文档也提供了详细的操作指南，使得各类开发者能够轻松上手。对此，科技媒体“Towards Data Science”的一位作者Thomas Reid对URL Context Grounding的评价非常高，认为其为检索增强生成（RAG）技术带来了新的突破。

RAG技术在过去几年中一直是提升大型语言模型（LLM）回答准确性和可靠性的主要手段。由于大型语言模型往往受到训练数据的限制，RAG通过引入外部的知识库帮助提供最新且具体的信息。传统的RAG流程往往相对复杂，涉及内容提取、分割、矢量化、存储、检索及生成等多个环节。URL Context的推出恰恰简化了这种复杂性，为处理公开网页内容提供了一种高效的解决方案。

通过URL Context，开发者无需再投入大量时间搭建和维护一个由多个组件构成的复杂管道，只需几行代码便能实现更高的精确度。例如，通过提供一个特定的URL指向一份包含50页的特斯拉财报PDF，Gemini能够快速、准确地提取出特定页面中的“总资产”和“总负债”数据，这在以往的摘要处理方式中是极难实现的。PDF文档末尾的员工信件及其中涉及的脚注，URL Context也能够精准识别并整合信息。

URL Context采用了一种两步检索的方式，以平衡速度和成本。当用户输入一个URL时，系统会从内部索引缓存中调取内容，以提高响应速度及成本效益；如果内容不在缓存中，则会进行实时抓取。这一机制使得信息获取既高效又经济。URL Context也有一定的局限性，它无法访问需要登录或付费的内容，同时也不支持某些特定API处理的内容（如YouTube视频或Google Docs），并且每次请求最多只能处理20个URL，并且单个URL内容上限为34MB。

在定价方面，URL Context采取了一种清晰明了的计费方式，按处理的内容Token数量计费。这样的计费机制确保了开发者能够精确地掌控所需的信息源，从而避免不必要的费用支出。

尽管URL Context的推出为数字内容的处理带来了革命性的改变，但它并不意味着RAG技术的终结。相反，URL Context调整了其应用场景。在涉及企业内网的海量私有文档时，构建自有的RAG系统依然是极为重要的，尤其在需要复杂检索及安全性高的场景下，例如金融、医疗及法律领域。

谷歌的Gemini API URL Context功能让机器在处理网页内容时更接近于人类的理解能力。这一创新不仅提升了AI的实用性，更为开发者提供了更加高效和准确的工具，将可能改变我们与网络信息交互的方式。随着技术的不断进步，可以预见，未来我们在获取和处理信息时将会更加便捷和智能。

谷歌推出Gemini API URL Context功能，提升AI网页内容“阅读”能力

精品推荐

相关文章