DeepSeek:智能时代的全面到来和人机协作的新常态

股票资讯 阅读:18 2025-03-05 16:49:21 评论:0

  GPT训练数据规模史无前例

  从2018年的GPT-1

  到2020年的GPT-3,

  模型预训练数据量从4.6GB增加到了45TB

  45TB相当于三千万本《西游记》

  主要模型数据集包括:

  维基百科数据集(庞大的客观知识)

  书籍(故事讲述能力与反应)

  杂志期刊(语言生成的严谨)

  Github代码等其他数据(逻辑推理)


浙江大学 孙凌云
声明

本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。