计算机行业:多模态大语言模型领域进展分享
背景-LLM正走向多模态
大语言模型(LLM)是近几年来最火热的方向之一
可以解决各种传统NLP任务,如文本分类、命名实体识别等
可以做更高级的任务
作为聊天机器人,按照要求扮演某个角色(强大的指令遵循能力)
然而LLM存在固有的限制
无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站截图给出源代码、理解一张表情包的含义
无法获取更多的多模态的世界知识,如名画、名人等
背景-LLM正走向多模态
大语言模型(LLM)是近几年来最火热的方向之一
可以解决各种传统NLP任务,如文本分类、命名实体识别等
可以做更高级的任务
作为聊天机器人,按照要求扮演某个角色(强大的指令遵循能力)
然而LLM存在固有的限制
无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站截图给出源代码、理解一张表情包的含义
无法获取更多的多模态的世界知识,如名画、名人等