照亮星星的人们 » 日志
【AI动画技术研究】日志更新(296)

2024-3-23 15:14 /

今日工作总结

1. 阅读论文PixArt -- Sigma. 华为放出的4K级别Image DiT模型。几个技术要点:

1. 30M 1080P 图片 + 2.3M 4K 图片(经由AES从10M张4K图片中筛选而来)
2. 用Share-Captioner对图像打标。效果比LlaVa好。平均caption长度180 words.
3. 利用SDXL中的VAE。
4. Text encoder用Flan-T5, token length从77涨到300.
5. 使用Group Conv对KV进行压缩，减少34%的train+infer时间。
6. 在从1K到4K的FT过程中，添加了PE Interpolation，加快收敛。

2. 阅读论文ToonSynth. 还没读完。捷克的一篇文章, 非常Insightful..

3. 验收训练模型。这批准确度远低于预期，有可能是学习率有问题，有可能是masking没有去掉。这样想来之前的效果好确实比较异常，可能确实是leakage导致的..

4. 融合modality训练。

5. 更新Awesome-Animation-Research。

6. 收集数据集。

7. 了解suno v3, 一个文字转音乐的模型。

Tags: AI动画技术研究系列

照亮星星的人们 » 日志【AI动画技术研究】日志更新(296)

照亮星星的人们 » 日志
【AI动画技术研究】日志更新(296)