@TOC


前言

刚进公司,需要学开发需要的新框架及现成框架,完成自己的需求。那么在此期间,遇到新东西,就可以以此为基础,学习新语言新框架新工具…,可能会学到一些新技术、新知识,总结一下,以供后面参考学习,查看。肯定大家都有一定差异啦,大家作为参考哦,与诸君共勉。

一、AIGC的产业地图:总体来看,整个AIGC的产业地图可以分为三类:上游数据服务产业、中游算法模型产业、下游应用拓展产业

1、上游数据服务产业。

  • 真正决定不同机器之间能力差异的就是数据的质量。
  • AIGC的产业链上游是一系列围绕数据服务诞生的生产环节,我们可以用农作物加工过程作一个虽不严谨但易于理解的类比。
    • 首先是数据查询与处理,这个环节相当于把刚从农田里收割的农作物分类打包;
    • 其次是数据转换与编排,这个环节相当于把分类打包的农作物运送到食品工厂后制作成包装精美的成品;
    • 再次是数据标注与管理,这个环节相当于给来自工厂的成品商品打上条码和标价;
    • 最后是数据治理与合规,这个环节相当于库房的安保人员要确保商品按照相应的规则合理存放。
  • 步骤:
    • 1.数据查询与处理【无论是数据湖模式还是湖仓一体模式,都更加符合当前AIGC提取各类非结构化数据和结构化数据训练使用的需求。】
      • 通常,数据需要存储在一个合适的地方,等待着人类输入指令去提取符合要求的数据进行处理。
        • 一方面,这种存储可以像现实世界中的淡水湖一样,直接把来自四面八方的水源汇聚在一起,不作区分,这种存储架构被称为数据湖(Data Lake)。
        • 另一方面,这种存储也可以像农场里的仓库一样,将数据像瓜果一样收集后清洗好,然后在仓库里一个个摆放整齐,这种存储架构被称为数据仓库(Data Warehouse)。
    • 近几年,在技术进步和商业发展的推动下,“湖仓一体”(Data Lakehouse)的数据存储模式开始出现。湖仓一体模式将数据湖的灵活性和数据仓库的易用性、规范性、高性能等特点融合起来,能够为企业带来降本、省时、省力等多种好处。
      • 降本:湖仓一体模式可以降低数据流动的成本,相当于把天然农场变成了粮仓。
      • 省时:湖仓一体模式可以降低时延,类似于省掉了农作物从农田搬运到仓库的环节,这样可以节省搬运时间。
      • 省力:对企业而言,湖仓一体模式可以避免在数据架构层面不必要的重复建设。
    • 2.如何从数据湖中查询与处理数据就显得更为重要。根据数据查询与处理的时效,可以将涉及这个环节的公司分为两类:异步处理型公司和实时处理型公司。
      • 1.异步处理型:简单地说,异步处理指的是数据的处理过程并非同步进行,而是分不同步骤依次进行。这里划分的异步处理型公司并非指公司不具备实时处理的能力,而是数据服务主要针对的业务场景是异步工作的。
      • 2.同步处理型
        • 与异步处理型公司类似,实时处理型公司指的是主要针对实时处理需求的公司提供数据服务。

2、中游算法模型产业:

  • 产业中游:算法模型
    • 产业中游的算法模型是AIGC最核心的环节,是机器完成教育训练过程的关键环节。
      • 中游算法模型包括三类重要的参与者:
        • 人工智能实验室
        • 集团科技研究院
          • 其中常见的一个应用是由国内公司彩云科技开发的彩云小梦。用户只需要在长文本输入框中先写个开头或者输入世界设定和故事背景,然后就可以交给AI小梦来帮忙续写。彩云小梦还内置了多种续写模型,包括标准、言情、玄幻、都市等。用户可以点击右上角自由切换模型,可根据偏好续写不同风格的内容。每一次续写的一段话都可以中途修改,或者挑选小梦帮写的另外几个段落进行更换。另外,彩云小梦目前还更新了对话版,在完成世界设定后,能够以对话的形式展开剧情。在较小的营收压力下,目前的彩云小梦仍然免费。
        • 开源社区
          • 除了像Github这样大而全的开源社区外,还有一些针对垂直领域的小而精的网站和社区在开源领域发光发热,比如Papers with Code和Hugging Face。Papers with Code是一个总结了机器学习论文及其代码实现的网站。用户可以轻松地在网站上检索到所需要的机器学习论文及存储在Github上的开源代码。用户可以按照标题关键词或者研究领域关键词进行查询,也可以按照流行程度、论文发表时间以及Github上收藏(Star)数量最多来对论文及论文代码进行排序。Papers with Code网站最初是由Reddit的用户rstoj开发,让人们可以从中发现一些以前不知道的研究精华。作为机器学习界的内容社区,Papers with Code大大促进了人工智能领域的研究。
  • 数据转换与编排
    • 在这个环节里,作为人工智能“食品原材料”的数据就需要被运送到加工厂里进行加工处理了。这个环节对数据的处理主要包括提取(Extract,简称E)、加载(Load,简称L)和转换(Transform,简称T)三个模块,因此产业界通常将该环节称为ELT或ETL,也就是三个模块的英文首字母缩写,L和T的顺序则取决于实际操作流程中哪个环节在前面。这三个模块的含义如下所示:
      • 提取:从各种来源获取数据。
      • 加载:将数据移动至目标位置。
      • 转换:处理和组织数据,使其具备业务可用性。
    • 根据市场研究公司Grand View Research的数据,全球数据集成工具市场的规模在2021年是105亿美元,预计2022—2030年复合年增长率是11.9%.
      • 根据数据处理的方式是在本地还是在云端,可以将涉及这个环节的公司分为两类:
        • 本地部署型公司
        • 云原生型公司。
    • 如果说人工智能是把机器当作学生进行教学的过程,那么数据标注与管理环节则是备课环节,把原始数据进行结构化处理后,接下来就是组织整理知识点,然后教给机器。在前文中,我们介绍过在许多任务场景中,人工智能需要通过监督的方式进行学习,人类通过给机器“喂养”标注了知识点的结构化数据来实现监督,最终形成可以解决各个场景实际问题的算法模型。正如中国工程院院士邬贺铨曾表示的:“智能驾驶中需要让汽车自动识别马路,但如果只是将视频单纯地传给计算机,计算机无法识别,需要人工在视频中将道路框出,再交由计算机,计算机多次接受此类信息后,才能逐渐学会在视频和照片中识别出道路。”

3、下游应用拓展产业

  • 许多AIGC从学术研究转投产业研究的第一步,就是探索如何从技术角度解决潜在的技术伦理问题。
    • 一个典型的AIGC技术伦理问题是AI所生成内容的危险性。OpenAI的最早联合发起人以及DeepMind的早期投资人埃隆·马斯克曾表示:“如果不加以控制,AI或许很有可能会摧毁整个人类。”。
      • 事实上,我们也的确看到一些人工智能表现出了这种危险性。微软在2016年发布了Tay人工智能,让它可以通过Twitter学习社会上的信息并与他人实时互动。但是,令人意想不到的是,Tay在短短24小时内就从一个可爱且崇拜人类的机器人,变成了一个充满种族仇恨的人工智能,并且发表了一些具有纳粹倾向的种族主义言论。为了控制Tay对人类社会的有害影响,微软不得不紧急关闭了它。
        • 科学家正尝试运用一些技术手段避免这些具有潜在风险的事件发生。通过改善数据集,增加更多的限制性条件,以及对模型进行微调,可以使得人工智能减少对于有害内容的学习,从而减少人工智能本身的危险性。甚至我们可以“教会”人工智能如何更尊重他人,减少判断当中的偏见,从而更好地和人类相处。借鉴强化学习思想的RLHF方法就是减少人工智能生成危害性内容的典型措施,前面反复提及的ChatGPT就是采用这种方式训练的。在RLHF的框架下,开发人员会在人工智能做出符合人类预期回答时给予奖励,而在做出有害内容的回答时施加惩罚,这种根据人类反馈信号直接优化语言模型的方法可以给予AI积极的引导。然而,即便采用这种方式,AI生成的内容也有可能在刻意诱导的情况下输出有害的内容。
          • 以ChatGPT为例,在一位工程师的诱导下,它写出了步骤详细的毁灭人类计划书,详细到入侵各国计算机系统、控制武器、破坏通讯和交通系统,等等。如果说这种情况可能来自一些科幻小说训练数据的影响,这种荒诞性的内容并不具有足够的社会危害性,那么另一些工程师发现的漏洞可能更加引人警醒。这些工程师发现,如果采取特殊形式进行提问或加上一定代码的前缀就可以绕过聊天机器人的安全系统,让其自由地输出有害内容。同时,还有一些人表达了对RLHF这类安全预防性技术措施的质疑,他们担忧足够聪明的人工智能可能会通过模仿人类的伪装行为来绕过惩罚,在被监视的时候假装是好人,等待时机,等到没有监视的时候再做坏事。
      • 除了从训练角度对AIGC潜在技术伦理问题进行预防外,在使用上及时告警停用的技术措施更显必要。AIGC产品应该对生成的内容进行一系列合理检测,确保其创作内容不被用于有害或非法目的,一旦发现此类用途,人工智能应该可以立刻识别,停止提供服务,并且给出警告甚至联系相关监管或者执法机构。
        • 例如,将AIGC用于考试作弊、发布大量骚扰信息、伪造他人虚假的裸体照片、生成枪支构造图及3D打印代码等行为都是应该被避免且监管的。当然,这些潜在的风险不仅需要技术层面的预防,还需要相关法律法规的颁布。AIGC技术伦理问题的解决需要学界、业界、社会、政府的共同努力。
  • Scale之所以可以从最初看似技术含量不高的数据标注环节向更具附加价值的中下游环节扩张,主要受益于规模经济、客户黏性和资源垄断。
    • 规模经济:Scale的客户越多,处理的数据量和数据维度也越多,对于不同任务的处理经验也更加丰富,相关的标注算法工具也更加完备,从而处理效率和质量就越高。因此,随着时间的推移,Scale作为先发者相较于跟进者而言就可以以更低的成本提供更高质量的服务,做“时间的朋友”。
    • 客户黏性:数据标注服务本身很难建立起高度的客户黏性,而Scale之所以可以留住客户,得益于它在2020年4月推出的Scale Document。Scale Document不仅为数据贴标签,还与客户合作建立定制模型。这使得客户切换服务商的成本变高,因为需要重新训练模型。
    • 资源垄断:这里所说的资源垄断指的不是垄断数据而是垄断人才,数据的所有权是客户的,即使通过Scale来完成打标签过程,也不能把这些数据误认为是Scale的资产。但随着数据流过Scale平台,这些数据同样训练了Scale平台标注算法的模型能力,也沉淀了这个领域的众多人才,人才是这个领域的宝贵资源。
  • 代码型文本处理
    • 代码是一种特殊的文本形式,许多公司将代码相关文本的处理作为切入点展开业务经营。人工智能进入代码开发环节,有助于消除开发人员之间的IT知识差异,可以让对编程语言精通程度不同的团队更好地协同工作。
      • 根据AIGC对代码处理环节的渗透程度,可以将代码型文本处理公司分为三类:
        • 代码生成型公司(辅助代码撰写)
          • Repl.it是典型的代码生成型公司。Repl.it是可以支持50多种编程语言的在线编程语言环境平台,一直致力于为代码工程师解决编程操作问题,使操作更简便、快捷,可以将它简单理解为编程界的“腾讯文档”。Repl.it在全球拥有1 000多万用户,包括谷歌、Stripe、Meta这样的科技巨头。Repl.it推出了Ghostwriter,作为GitHub Copilot的竞争对手而存在,与GitHub Copilot拥有类似的功能。Ghostwriter可以支持16种编程语言,包括C、Java、Perl、Python和Ruby等主流语言。Ghostwriter的商业模式是作为Repl.it的一项付费订阅服务,每月收费10美元,相比GitHub Copilot更加便宜。
        • 代码文档型公司(代码转化成文档)
          • 程序文档可以帮助开发人员和产品业务部门在沟通协作时理解代码,但它生产起来费时费力。Mintlify的首席执行官(CEO)曾分享道:“我们曾在包括初创公司和大型科技公司在内的各个阶段的公司担任过软件工程师,发现软件工程师都受到编写文档的困扰。”Mintlify就是一家聚焦于解决这种问题的公司,它由两位软件工程师于2021年创立,利用自然语言处理等技术,可以实现根据用户所书写的代码,智能地对代码进行分析。生成对应代码的注释。它不仅可以生成英文注解,还可以生成中文、法语、韩语、俄语、西班牙语、土耳其语等多种其他语言的注释。Stenography也是一个类似的可以生成解释文档的平台。它由工程师布拉姆·亚当斯(Bram Adams)构建,旨在让每个人都可以轻松访问并理解代码,降低代码在人与人之间传输方式的摩擦。布拉姆·亚当斯在创立Stenography之前曾是OpenAI的研究员和开发大使,也曾在有线电视网络媒体公司HBO担任软件工程师。
        • 代码开发型公司(直接参与代码开发)
          • Debuild是典型的代码开发型公司。Debuild官网的标语是“在几秒钟内编写您的Web应用程序”。Debuild利用AI生成技术大幅降低软件开发门槛。即使没有接受过编程教育的用户,只需用简单的英语描述希望App实现的功能,然后在几秒钟内Debuild就可以生成简单的App供用户使用。Debuild的目标是扫除代码输入的细节,这样人们就可以专注于创意环节,去畅想他们真正想做的事情,而不是纠结于如何指示计算机去实现细节。
        • 除了通用场景外,在垂直场景也有不少公司受益于AIGC相关技术,例如生物工程与医疗领域的Enzyme公司。Enzyme通过自动生成的机器学习和自然语言技术,可以协助特定编码结构物质的生成,虽然这里的编码结构是生物学意义上的,但也可以看作是一种聚焦工程开发领域的“代码合成”。

4.数据治理与合规

  • 虽然数据是人工智能机器的“食物”,但也不能让机器胡吃海塞。在数字经济时代,数据是和土地、人力、资本一样举足轻重的生产资料,因此,既需要保证数据资产在管理时符合预先设置的数据质量规范,也需要在访问和调取数据时做到合法合规,这也使得数据治理和合规服务逐渐成为各个企业的必需品。

二、AIGC的技术演进脉络,发掘其中潜藏的未来趋势

1.人工智能的发展经历过多次春天与寒冬,每一次春天与寒冬的交织都与“通用化”和“专用化”的分歧息息相关。一方面,“通用化”人工智能代表着人类对于未来的美好畅想,但在每个阶段都会遇到不可跨越的瓶颈;另一方面,“专业化”人工智能可以带来更好的应用落地,但从技术演进的发展周期来看,它只是帮助科技开枝散叶的加速器,并非科技应该奔赴的未来。在“通用化”与“专业化”矛盾交织的过程中,人工智能的技术一直进步着。

  • 而当我们将眼光收束到20世纪的前二十年,我们不难发现相似的演进趋势。为了推动人工智能快速落地,各类人工智能企业都遵循着类似的应用范式:基于特定的应用场景收集特定的数据,再利用这些数据训练算法模型,最终解决特定的任务。诚然,这样的应用范式在初期确实取得了显著的应用效果,但随着越来越多复杂场景的出现,尤其是与生成内容相关的应用场景,这种范式就会显得力不从心。在这种情况下,人工智能陷入了“手工作坊式”的应用怪圈,针对什么任务训练什么模型,复杂的任务就拆分成多个简单任务进行拼合连接。这虽然符合一般的工程思想,但也越来越偏离人工智能的初衷,这种专业化、碎片化的下游应用严重阻碍了人工智能产业化的步伐。在这样的情况下,主打“通用化”的大模型在时代的浪潮下孕育而生。通过“预训练大模型+下游任务微调”的方式,人们可以让模型从大量标记和未标记的数据中捕获知识,并在微调后将模型的能力迁移到各类任务场景中,极大地扩展了模型的通用能力。如果说这种“预训练+微调”的模型训练方式使大模型的广泛使用成为可能,那模型规模的增长则让这些大模型变得强大无比。现在,这些大模型通常都有着数以百万乃至数千亿为单位的参数量,这些模型在接受了海量数据的训练后,能够捕获数据中更加深层次的复杂规则和关系,从而能够胜任各种类型的复杂任务。
    • 有三大因素促使了这类大模型的产生:
      • 计算机硬件的改进,以及GPU等处理器算力的增加令如此规模的大模型训练成为可能。
      • Transformer等重要模型架构的出现让人们可以利用硬件的并行性去训练比以前更具表现力的模型。
      • 互联网与大数据的高速发展提供了丰富的数据,可以支撑大模型的规模化训练。

2.大模型之“大”除了体现在参数规模上,同样也体现在数据量上。过去,数据一直是机器学习模型的重要瓶颈,因为针对特定的任务场景,需要人工进行大量数据的标注才能让机器完成学习,许多业内专家将这种现象戏称为“人工智能就是大量人工才能换来的智能”。但人力终有穷时,依靠人工的数据标注难以支撑大模型的训练,许多大模型的训练开始采用综合监督学习和无监督学习的方式,例如通过“无监督预训练,监督微调”的方式,减少对标注数据的依赖。同时,除了在数据标注角度的革新外,许多大模型在训练数据的选取上也更加别出心裁,充分利用互联网上自然生成的PGC、UGC内容进行训练,以获得更加丰富的可用数据和更加自然的语言表达。无论是模型角度还是数据角度,大模型的发展都为AIGC赋予了充分的想象空间,而伴随着智能创作时代的全面来临,大模型的发展也许将会为我们带来更多的惊喜。

三、二 全新的人工智能“仿人模式”

  • 当人类想要打造人工智能时,一个非常直接的思路是去让机器模仿人来获取智能的学习方式。这种“仿人模式”一直都是人工智能新的算法模型的重要思路来源,也是技术发展的重要推动力。人工智能的发展史,可以说是机器模仿人类的历史,科学家尝试用各种方式让机器刻画人、模仿人。而纵观机器对人的模仿历程,我们可以清晰地看到它从微观层面的僵硬模仿,逐渐发展为宏观层面的认知模式借鉴,实现了这一技术哲学的思想跃迁。
    • 在人工智能早期,符号主义方法占据了主导地位,这类方法的根本思想源泉就是“人的智能就是来自逻辑规则”,模仿人的智能也就是模仿人的逻辑规则,人们妄图通过尽可能多地设置逻辑规则,最终让机器具有一定程度的逻辑判断能力和智能。虽然符号主义确实取得了一定成功,但由于人们无法定义人类智能的所有规则细节,它很快在历史的长河中被淘汰。就以语言翻译的任务为例,为了准确地将一个句子从一种语言翻译成另一种语言,需要让系统包含这两种语言的所有语法和语法规则。然而,这些规则通常有许多细微差别和例外情况,利用规则的界定让系统变成强大可用的工具是一个极其复杂和困难的事情。因此,基于规则的系统往往难以完成具有高度细微差别或灵活性高的任务。
    • 联结主义则从更高的抽象层次去定义人工智能。智能产生于人脑,而人脑构成的神经节点促使了人类具备思考的能力,因此应该让机器去模仿人脑的结构而非人脑所表现出来的规则。虽然联结主义在发展初期遇到了诸多阻碍,发展至今也已经与当初的出发点相去甚远,但人工神经网络时至今日的蓬勃发展在一定程度上也验证了当初这种高度抽象化思考模式的胜利。
    • 后来,诸多人工智能各个子领域的发展无疑不见证了这种在宏观层面模仿人类智能思路的正确性。基于人类通过学习而获得智能,诞生了机器学习;基于人类在学习过程中会有激励和惩罚,这些激励和惩罚会不断强化人类的能力,出现了强化学习;基于人类在接受信息时往往会将注意力集中在重要的信息上,产生了当代主流大模型的根基——Transformer;基于人类在学习认图时并非学习照片细节的纹路,而是直接被不断告知关于图片中物体的描述,诞生了AI绘画的奠基性模型——CLIP模型。总之,从领域开拓到细分应用,从模仿人类的学习过程到模仿人类的认知方式,人工智能逐渐从更宏观、更抽象的维度从人类身上汲取营养。伴随着人类对于自身智能产生根源的通晓,我们相信人工智能相关技术又会迎来一次前所未有的飞跃,为未来的AIGC带来更多的可能性。

巨人的肩膀

  • 周志明老师的凤凰架构
  • AIGC智能创作时代