DeepSeek系列专题线上公开课(第二季):从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

股票资讯 阅读:7 2025-03-25 14:23:46 评论:0

  快速回望历史——大模型的产生

  ChatGPT所能实现的人类意图,来自于机器学习、神经网络以及Transformer模型的多种技术模型积累

  里程碑:ChatGPT的成功

  OpenAI公司于2022年11月发布ChatGPT,短短三个月内日活跃用户从零增长至超过3000万,标志着对话式AI进入大众应用阶段

  大模型能力不断增长

  大模型在知识问答、数学、编程等能力上达到新的高度,多种任务上的表现超过人类水平。

  早期大模型在推理能力上存在明显短板

  大语言模型易产生幻觉,在数学推理方面表现在推理能力严重不足,体现在简单数值比较错误、多步推理能力弱、推理不一致等

  怀疑论

  Yann LeCun的批判观点:对纯粹扩大规模方法的根本质疑

  Mehrdad Farajtabar:"LLM本质上是统计模式匹配工具,而非真正的推理系统"、"下一个词预测框架不足以产生真正的理解"

  横空出世:OpenAI o1/o3、DeepSeek-R1等

  2023-2024年,推理能力突破性进展:

  OpenAI o1/o3在数学和代码推理任务上的卓越表现

  开源大模型DeepSeek-R1在MATH基准上达到87.2%的准确率

  小结一:

  1.早期的大模型推理能力不足

  2.OpenAI-o系列模型和DeepSeek-R1等胜在推理能力较强


浙江大学 肖俊
声明

本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。