@TOC


前言

刚进公司,需要学开发需要的新框架及现成框架,完成自己的需求。那么在此期间,遇到新东西,就可以以此为基础,学习新语言新框架新工具…,可能会学到一些新技术、新知识,总结一下,以供后面参考学习,查看。肯定大家都有一定差异啦,大家作为参考哦,与诸君共勉。

一、Diffusion模型:

  • Diffusion模型实现思想:
    • Diffusion模型尝试使用一种更加简单的方法生成图像。大家是否记得老式电视机信号不好时屏幕上闪烁的雪花?这些雪花是随机、无序、混乱的,因而被称为噪声。当电视机信号不好的时候,屏幕上就会出现这些噪声点,信号越差就会出现越多的噪声点,直到最后屏幕完全被随机的噪声覆盖,图2-8就展示了这样一个在图像上增加噪声的演变过程。那么换一个角度去思考,既然任何一张图像都可以在不断添加噪声后,变成一张完全随机的噪声图像,那我们能不能将这个过程翻转,让神经网络学习这个噪声扩散的过程之后逆向扩散,把随机生成的噪声图像,逐渐转化为清晰的生成图像呢?

二、CLIP模型

  • CLIP模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型。如果要实现相对优质的AI绘画,需要让AI很好地理解图片,那么要解决的主要问题有两个:
    • 理解力差异和数据量不足。
      • 在理解力方面,人类和AI认识图片的方式是不一样的,人类主要是从整体上对图片中的形象进行理解,而AI则是对图片上一个个像素的特征进行学习。
      • 而在数据量方面,需要对大量图片数据进行标注来训练AI,即便在目前有许多分类标注好的开源数据集的情况下,AI性能的提升还是不尽如人意。
    • 当这两个问题的解决逐渐走入瓶颈时,研究者开始转换让AI学会理解图片的思路。对于人类来说,在婴儿时期学习图片并不是具体地学习一个个像素,而是父母指着图片告诉孩子:“这是一只在吃猫粮的黑色小猫”,或者“这是一辆在马路上飞驰的红色汽车”。于是,研究者开始思考,AI的学习过程是否也能采用这种类似的方式?这本质上是一个文本和图像匹配的问题。如果要完成这个任务,自然也需要大量的数据,但互联网上天然就有海量这样的数据,无论是发朋友圈、微博还是推特等,本质上都是用一段文字去说明发布的图片,很容易就可以获取大量标注好的图像文本对。这样,前面提出的两个问题也就迎刃而解了。为此,OpenAI在互联网上收集到了4亿对质量过关的图像文本对,分别将文本和图像进行编码,让CLIP模型学会计算文本和图像的关联程度。在此基础上,结合Diffusion模型对图像的生成能力,就可以打造一款AI绘画应用了。

巨人的肩膀

  • 周志明老师的凤凰架构
  • AIGC智能创作时代