照亮星星的人们 » 日志
【AI动画技术研究】日志更新(265)

2024-2-21 15:39 /

今日工作总结

1. 阅读论文Control Color: Multimodal Diffusion-based Interactive Image Colorization.

上周五S-Lab新放出的一篇文章，和之前喵喵发的那篇[1]（还没读）有一点像，做的都是自然图像的re-colorization。这篇的卖点在于multi-model + mixture correction.

Training分为两个阶段: Main model + Content-guided Deformable Convolution Autoencoder Decoder.

在训练Main model的时候，输入是①一张图片的L channel②一张在L channel上加了synthetized color stroke(通过SLIC模拟)的图片和③color stroke自身的bi-mask. ①②的latent variable和downsampled的③进行concat后作为LDM的input noise, 重建的结果的ab通道+①作为中间结果。

之后训练Content-guided Deformable Convolution Autoencoder Decoder. 这个是对VAE的Decoder使用Deformable Convolution进行微调，使用的是监督学习Conceptual Loss. 然后Inference的时候用这个SFT后的D。

文章的其中一个卖点是multi-model，上述的Main model training只包含了stroke condition这么一个情况，还包括比较常见的text(用CLIP)和image ref(还是CLIP)做输入的情况。值得注意的是文中说用ref的时候由于不属于Supervised的情况所以用了一个叫做contextual loss的object. 这个还是比较有意思的。

文章的另一个卖点是能够对mixture和overflow的进行correction. 具体的方法是把attention map中的saliency提取出来，然后把交界处OOD的atten部分根据周围颜色重新进行上色，这个方法还是有些机智的。

目前demo还没有放出来，等后面看看实测效果。
https://zhexinliang.github.io/Control_Color/

2. 写paper的abstract和introduction部分。初步计划是先把能写的地方写了，在写的过程中对当然的进度和方向做一个拟合，规划后面进行的实验。

3. 测试了WebUI-Forge中的SVD和Pika的视频生成功能。SVD仅能对部分图片的背景进行移动；Pika的表现比SVD要好一些，但会让全图模糊起来，也达不到Live2D的效果。

好像bgm连gif都不能放.. 寄

4. 看WebUI源码。

[1] Liu, Hanyuan, et al. "Video Colorization with Pre-trained Text-to-Image Diffusion Models." arXiv preprint arXiv:2306.01732 (2023).

Tags: AI动画技术研究系列

照亮星星的人们 » 日志【AI动画技术研究】日志更新(265)

照亮星星的人们 » 日志
【AI动画技术研究】日志更新(265)