人工智能对劳动力市场的影响:一项新的衡量方法及初步证据 (人工智能对劳动力市场的影响:一项新的衡量方法及初步证据)
主要发现:
- 引入了一种新的衡量人工智能置换风险的指标——“观察到的暴露度”,它结合了大型语言模型(LLM)的理论能力和实际使用数据,更强调自动化而非辅助性用途以及工作相关的用途。
- 人工智能的实际应用远未达到其理论能力:实际覆盖率仅为理论可行性的零头。
- 美国劳工统计局(BLS)预测,观察到的暴露度较高的职业,到2034年预计增长幅度较小。
- 暴露度最高的职业的工人更有可能年龄较大、女性、受过更高教育且收入更高。
- 自2022年底以来,对于暴露度高的工人,没有观察到系统性的失业率上升,但发现年轻人(22-25岁)在暴露度高的职业中的雇佣速度有所放缓。
引言:
人工智能的快速扩散正在引发对劳动力市场影响的研究热潮。然而,以往方法的经验教训表明需要保持谦逊。例如,一项衡量工作外包程度的著名研究发现,美国大约四分之一的工作岗位容易外包,但十年后,其中大部分工作岗位仍然保持了健康的就业增长。政府自身的职业增长预测虽然方向正确,但其预测价值仅略高于对过去趋势的线性外推。即使事后分析,对重大经济冲击对劳动力市场的影响也往往不清楚。工业机器人对就业的影响研究得出的结论相互矛盾,而中国贸易冲击导致的工作岗位流失规模仍在争论之中。
本文提出了一个理解人工智能对劳动力市场影响的新框架,并通过早期数据对其进行测试,发现人工智能至今尚未对就业产生明显影响。我们的目标是建立一种衡量人工智能如何影响就业的方法,并定期重新分析这些分析结果。虽然这种方法可能无法捕捉到人工智能重塑劳动力市场的每一个渠道,但通过在有意义的影响出现之前奠定基础,我们希望未来的发现能够比事后分析更可靠地识别经济破坏。
反事实分析:
当影响较大且突然时,因果推断更容易。例如,COVID-19大流行及其伴随的政策措施造成了经济破坏,以至于许多问题都不需要使用复杂的统计方法。例如,疫情初期,失业率急剧上升,几乎没有其他解释。
然而,人工智能的影响可能不像COVID-19那样,更像互联网或与中国的贸易。影响可能无法从总体失业数据中立即看出;贸易政策和商业周期等因素可能会混淆趋势线。
一种常见的方法是比较暴露于人工智能程度不同的工人和公司或行业的成果,以隔离人工智能的影响。暴露通常在任务层面定义:例如,人工智能可以评分作业,但不能管理教室,因此教师的暴露程度低于那些可以将整个工作远程完成的工人的暴露程度。
衡量暴露度:
我们的方法结合了三个来源的数据:
- O*NET数据库,其中列出了美国约800种独特职业相关的任务。
- 我们自己的使用数据(如Anthropic Economic Index中所衡量)。
- Eloundou 等人(2023 年)的任务级别暴露估计,衡量大型语言模型是否有能力在至少加快两倍的速度完成任务。
Eloundou 等人的指标 β 以简单的比例尺评分任务:如果任务可以通过大型语言模型单独完成,则为 1;如果需要基于大型语言模型的附加工具或软件,则为 0.5;否则为 0。
为什么实际使用率可能低于理论能力?有些理论上可行的任务可能由于模型限制而无法在实际中使用。另一些任务可能由于法律限制、特定软件要求或人工验证步骤等障碍而难以扩散。例如,Eloundou 等人将“授权给药房补药并提供处方信息”标记为完全暴露(β=1)。虽然评估正确,认为大型语言模型可以加快此任务的速度,但我们尚未观察到 Claude 执行此任务。
然而,这些理论能力和实际使用率的衡量标准具有高度相关性。如图 1 所示,之前四份经济指数报告中观察到的 97% 的任务都属于 Eloundou 等人评为理论上可行的类别(β=0.5 或 β=1.0)。
新的职业暴露度衡量标准:
新的衡量标准“观察到的暴露度”旨在量化:在大型