前Meta员工创立Memories.ai，推出多模态大语言模型并获800万美元融资

时间：2025-07-25 23:55

小编：小世评选

7月25日，来自海外社交媒体X的消息，前Meta员工沈俊潇（Shawn Shen）宣布，他与合作伙伴Enmin Zhou共同创立的Memories.ai正式推出了一款全新的多模态大语言模型。该公司不仅推出了这一波澜壮阔的技术，同时也成功完成了由Susa Ventures领投的800万美元种子轮融资，Crane Venture Partners、三星Next及Fusion Fund等多个投资机构参与了跟投。这笔融资标志着对新兴视觉记忆技术的浓厚关注。

Memories.ai推出的这一多模态大语言模型，具有全新的智能决策机制，能够解析用户意图，自动检索相关的视觉记忆片段，并整合这些信息，依此进行推理和回答。值得一提的是，该模型具备了处理无限长视觉记忆上下文的能力，使得用户体验更为流畅。

创始团队背景与发展历程

沈俊潇在其博客中提到了自己从小便展现出的求知欲，他14岁便远赴英国读高中，之后在剑桥大学完成了本硕博的学业，并于2023年获得工程学博士学位。在研究生期间，他还曾在摩根士丹利进行短期实习，并于2022年加入Meta担任研究科学家。2024年，沈俊潇离开Meta，致力于创建自己的公司Memories.以期通过先进的技术解决视觉记忆这一前沿问题。

与沈俊潇一同创立Memories.ai的Enmin Zhou，同样具备了深厚的技术背景。他于2020年从加州大学洛杉矶分校毕业后，继续在布朗大学攻读数据科学，最终于2022年获得学位。两人在Meta的经历让他们意识到推动视觉记忆技术发展的迫切性，因而决定共同创业。

多模态大语言模型的技术创新

Memories.ai的多模态大语言模型的设计理念，主要受到人类大脑记忆机制的启发。在构建初始记忆架构时，团队设定了一系列关键的模型，包括用于将记忆线索转化为可搜索的查询模型、粗粒度与细粒度检索模型、反思模型以及重建模型等。这样的设计使得该系统在记忆检索过程中更加高效。

在模型的运作中，记忆检索过程通常开始于线索的激活。线索可以来源于外部的视觉图像、声音或特定的情感，也可以是内部的情感联想。当这些线索被系统识别后，它们被转换成适合搜索的格式，以便系统快速梳理海量信息，寻找与当前情境最相关的视觉记忆片段。

这个模型基于粗略检索到初步的信息后，进入更深层次的记忆整合与重构阶段，最终形成完整、连贯的回答。

技术性能优越，超越同类产品

根据相关测试，Memories.ai在视频问答、视频分类等基准测试中，表现出色。在视频零样本分类基准测试中，其分数超越了行业领先的PE-G模型，并在K400和HMD8数据库中亦表现突出。在视频检索基准测试中，Memories.ai的表现同样不俗，超越了历史第一的Perception Encoder，在多个数据集和指标上均取得了优异的成绩。

值得一提的是，沈俊潇在技术博客中提到，这一模型在视频问答基准测试中更是超越了如Gemini 2.5 Pro、OpenAI GPT-4等同类竞争产品。这一系列的测试结果，充分证明了Memories.ai在技术上的领导地位。

投资与未来发展前景

随着Memories.ai的推出以及800万美元的融资成功，投资者们对该公司的未来发展充满期待。沈俊潇在其博客中指出，这项技术不仅将在视频处理领域带来革命性的变化，也可能成为通用人工智能（AGI）发展的重要节点。通过基于人类大脑的记忆机制构建的模型，Memories.ai有潜力在更广泛的领域内实现应用，为人工智能的发展开辟新的可能性。

上，Memories.ai的多模态大语言模型有望推动视觉记忆技术的进一步创新，并在未来发展中占据一个重要的市场位置。面对日益激烈的科技竞争，沈俊潇与Enmin Zhou的团队不仅在技术上不断突破，更在战略发展上展现出明确的方向，未来值得期待。

前Meta员工创立Memories.ai，推出多模态大语言模型并获800万美元融资

精品推荐

相关文章