DeepSeek系列专题线上公开课（第二季）：从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

股票资讯阅读：235 2025-03-25 14:23:46 评论：0

　　快速回望历史——大模型的产生

　　ChatGPT所能实现的人类意图，来自于机器学习、神经网络以及Transformer模型的多种技术模型积累

　　里程碑：ChatGPT的成功

　　OpenAI公司于2022年11月发布ChatGPT，短短三个月内日活跃用户从零增长至超过3000万，标志着对话式AI进入大众应用阶段

　　大模型能力不断增长

　　大模型在知识问答、数学、编程等能力上达到新的高度，多种任务上的表现超过人类水平。

　　早期大模型在推理能力上存在明显短板

　　大语言模型易产生幻觉，在数学推理方面表现在推理能力严重不足，体现在简单数值比较错误、多步推理能力弱、推理不一致等

　　怀疑论

　　Yann LeCun的批判观点：对纯粹扩大规模方法的根本质疑

　　Mehrdad Farajtabar："LLM本质上是统计模式匹配工具，而非真正的推理系统"、"下一个词预测框架不足以产生真正的理解"

　　横空出世：OpenAI o1/o3、DeepSeek-R1等

　　2023-2024年，推理能力突破性进展：

　　OpenAI o1/o3在数学和代码推理任务上的卓越表现

　　开源大模型DeepSeek-R1在MATH基准上达到87.2%的准确率

　　小结一：

　　1.早期的大模型推理能力不足

　　2.OpenAI-o系列模型和DeepSeek-R1等胜在推理能力较强

浙江大学肖俊

声明

本站内容源自互联网，如有内容侵犯了您的权益，请联系删除相关内容。本站不提供任何金融服务，站内链接均来自开放网络，本站力求但不保证数据的完全准确，由此引起的一切法律责任均与本站无关，请自行识别判断，谨慎投资。