研究显示：大型语言模型在制造零件任务中的表现惨淡，未来蓝领工作或将不受影响

时间：2025-06-03 19:00

小编：星品数码网

随着人工智能和机器学习技术的进步，许多人开始讨论这些技术如何影响各行各业的工作，包括白领和蓝领职位。最新研究结果表明，尽管大型语言模型（LLM）在文本生成和信息处理等领域取得了显著进展，在实际的制造任务中，它们的表现却相当糟糕。这一发现对于未来工作的格局，尤其是蓝领职位的稳定性，提供了一种新的视角。

在一项专注于零件制造任务的研究中，Adam Karvonen评估了多种顶尖LLM的表现，包括OpenAI的最新模型和Gemini 2.5 Pro。结果显示，这些模型在执行与制造相关的任务时面临显著困难，没有一个模型的表现让Karvonen感到满意。这些模型在视觉理解和物理推理能力上频频失误，远远不及经验丰富的蓝领工人的水平。这一发现提示我们，尽管自动化和智能化的浪潮席卷而来，蓝领工作仍然在可预见的未来保持相对稳定。

研究中，Karvonen设计了一项简单的任务，要求这些模型根据所给的图纸和说明，制定一个详细的加工方案。他使用3轴CNC铣床和2轴CNC车床来加工一个简单的零件。尽管该零件看似简单，但在实际的原型制造过程中，大多数技师会将其视为常规任务。参与测试的LLM却无法应对这一挑战，频繁产生重大错误。

这些错误可被归类为两大类：视觉捕捉和物理推理。在视觉能力方面，Karvonen指出，Anthropic和OpenAI等公司的模型在过去两年里没有取得明显进展，常常忽略一些显而易见的特征。虽然在某些视觉推理的基准测试中，模型成绩显示接近人类，但在实际的制造场景中，这些成绩并不能反映真实能力。

以Gemini 2.5 Pro为例，尽管在某些细节的捕捉上有所改进，但在制定加工计划时，它依旧表现出错误的操作顺序和夹持方法，导致了诸多无法实现的加工建议。这反映出当前大型语言模型在理解和应用实际制造知识时的局限性，这些知识大多需要经年累月的实操经验和细致的背景知识。即使是进行初步的加工计划，也需要考虑刀具选择、刀尖半径、切削速度等复杂的参数，这些往往超出了LLM的能力范围。

Karvonen的研究成果与一些行业领导者的预测形成鲜明对比。例如，Anthropic的首席执行官Dario Amodei曾声称几乎所有工作都会被自动化，从而使每个人都处于同一竞争上。Karvonen却认为，蓝领工作的稳定性将不受此类自动化威胁，至少在可预见的未来是如此。

这种现象的根源在于蓝领工作涉及大量隐性知识和实践经验，而这些知识常常是难以被数字化或简化为文本的。尽管LLM能够处理大量理论知识，但在面对真实世界的复杂任务时，却缺乏必要的实用能力。这种差距意味着，尽管白领工作可能会受到更大影响，但蓝领工人依然能够在许多领域保持他们的职业地位。

如果这一趋势持续下去，蓝领工人将可能在未来的工作市场中扮演更加重要的角色。由于当前的LGMs无法有效替代他们，尤其是在处理复杂的物理任务时，蓝领职位的需求可能会保持强劲。随着技术不断进步，虽然某些白领工作的性质可能会发生变化，但蓝领工作却可能在这场科技革命中展现出其独特的价值。

我们也不能忽视潜在的社会影响。如果蓝领与白领之间在工作替代方面存在明显差异，社会可能会出现更多的阶级冲突。这些冲突不仅关乎经济状况，而且也可能反映出不同工作群体之间的文化与意识形态差异。这意味着，未来的科技发展不单在技术上有挑战，同时也可能带来重大的社会调整。

尽管大型语言模型在许多领域展现出惊人的可能性，但在实际的制造任务中，它们目前的表现尚不尽如人意。蓝领工人在此背景下可能享有相对的职业稳定性，而未来社会中这一现象的演化，值得我们进一步关注与思考。随着技术的不断进步和产业的转型，蓝领工人的价值与角色将在未来的工作世界中愈发显得重要。

研究显示：大型语言模型在制造零件任务中的表现惨淡，未来蓝领工作或将不受影响

精品推荐

相关文章