@TOC

前言

刚进公司，需要学开发需要的新框架及现成框架，完成自己的需求。那么在此期间，遇到新东西，就可以以此为基础，学习新语言新框架新工具…，可能会学到一些新技术、新知识，总结一下，以供后面参考学习，查看。肯定大家都有一定差异啦，大家作为参考哦，与诸君共勉。

一、Diffusion模型：

Diffusion模型实现思想：
- Diffusion模型尝试使用一种更加简单的方法生成图像。大家是否记得老式电视机信号不好时屏幕上闪烁的雪花？这些雪花是随机、无序、混乱的，因而被称为噪声。当电视机信号不好的时候，屏幕上就会出现这些噪声点，信号越差就会出现越多的噪声点，直到最后屏幕完全被随机的噪声覆盖，图2-8就展示了这样一个在图像上增加噪声的演变过程。那么换一个角度去思考，既然任何一张图像都可以在不断添加噪声后，变成一张完全随机的噪声图像，那我们能不能将这个过程翻转，让神经网络学习这个噪声扩散的过程之后逆向扩散，把随机生成的噪声图像，逐渐转化为清晰的生成图像呢？

二、CLIP模型

CLIP模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型。如果要实现相对优质的AI绘画，需要让AI很好地理解图片，那么要解决的主要问题有两个：
- 理解力差异和数据量不足。
  - 在理解力方面，人类和AI认识图片的方式是不一样的，人类主要是从整体上对图片中的形象进行理解，而AI则是对图片上一个个像素的特征进行学习。
  - 而在数据量方面，需要对大量图片数据进行标注来训练AI，即便在目前有许多分类标注好的开源数据集的情况下，AI性能的提升还是不尽如人意。
- 当这两个问题的解决逐渐走入瓶颈时，研究者开始转换让AI学会理解图片的思路。对于人类来说，在婴儿时期学习图片并不是具体地学习一个个像素，而是父母指着图片告诉孩子：“这是一只在吃猫粮的黑色小猫”，或者“这是一辆在马路上飞驰的红色汽车”。于是，研究者开始思考，AI的学习过程是否也能采用这种类似的方式？这本质上是一个文本和图像匹配的问题。如果要完成这个任务，自然也需要大量的数据，但互联网上天然就有海量这样的数据，无论是发朋友圈、微博还是推特等，本质上都是用一段文字去说明发布的图片，很容易就可以获取大量标注好的图像文本对。这样，前面提出的两个问题也就迎刃而解了。为此，OpenAI在互联网上收集到了4亿对质量过关的图像文本对，分别将文本和图像进行编码，让CLIP模型学会计算文本和图像的关联程度。在此基础上，结合Diffusion模型对图像的生成能力，就可以打造一款AI绘画应用了。

巨人的肩膀

周志明老师的凤凰架构
AIGC智能创作时代