人工智能行业:AI原生多模态数据智能解决方案白皮书
类人脑计算能力的崛起
驱动GenAI技术发展的核心是大语言模型LLM,其本质上是使用计算机构建巨大的神经网络结构模拟人脑神经元的构成,然后将海量的文本知识压缩到一个有庞大参数量的神经网络中。这样的架构可以给计算机赋予人类一样的交互能力,可以理解人类的语言和需求,再生成便于人类理解的数据。
GenAI的类人脑计算能力与过去传统意义上计算机擅长的高速数学计算有根本性的区别:
1.传统计算能力可以轻松完成人类在短时间内难以完成的复杂科学计算,而且工作准确度极高,相同的任务可能需要大量人力进行手动计算整合才能完成,且人类的工作经常出错,但是传统计算能力难以处理以人类自然语言构成的NLP任务,比如文档理解、对话理解、图片理解等,而对于人类而言即使是儿童也具备这些能力。
2.而新型的GenAI计算能力是完全模仿人脑的结构所设计的,所展现的能力也跟人类行为极为相似,通过自然语言交互,同样能很轻松的胜任文档理解、对话理解、图片理解等任务,同时具备一定的创造力,可以生成现实中不存在的东西,但是并不擅长复杂的数学计算,准确度也是天生的缺陷。
因此,GenAI真正带来的是一种全新的类人脑计算能力,它与传统的计算机精确数学计算能力共同构成了我们当今IT世界的新型计算基座。
非结构化数据价值开始被挖掘
数据作为IT世界的另外一个重要基石,在GenAI的新型计算能力加持下也发生了巨大的变化。
传统上在数据处理领域,我们会把数据分成三类,结构化数据、半结构化数据和非结构化数据:
结构化数据是定量数据,由值和数字组成,是高度组织化的数据,易于访问和解释,它们往往以二维表格和数据库的形式存在。
非结构化数据是定性数据,没有内部结构,由文本、视频和图像组成,包括各种格式的办公文档、图片、网页、音频/视频信息等,这些数据往往以文件的形式存在。
半结构化数据则位于两者之间,它一般是自描述的,数据的结构和内容混在一起,没有明显的区分,如JSON、XML等格式的数据。
在过去数十年的DataInfra领域发展过程中,结构化数据和半结构化数据处理都是其中绝对的主角,结构化和半结构化数据由业务流程产生,与商业价值高度相关,这些数据与企业的流程业务及商业化息息相关,DataInfra软件领域也逐渐演化出了非常成熟的产品及处理能力。
然而,根据Gartner的数据显示,结构化和半结构化数据仅仅占到全世界数据比例的不到20%,其他80%以上均是非结构化数据。在过去的技术能力下,非结构化数据难以处理,价值难以被挖掘和衡量,有研究显示大量办公文档类的数据在整个生命周期内最多只被使用过2次,相比较其被努力创造出来的投入相比产生的价值极为有限。因此,非结构化数据长期被当成企业负资产的存在。
本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。