2024-3-23 15:14 /
今日工作总结

1. 阅读论文PixArt -- Sigma. 华为放出的4K级别Image DiT模型。几个技术要点:
1. 30M 1080P 图片 + 2.3M 4K 图片(经由AES从10M张4K图片中筛选而来)
2. 用Share-Captioner对图像打标。效果比LlaVa好。平均caption长度180 words.
3. 利用SDXL中的VAE。
4. Text encoder用Flan-T5, token length从77涨到300.
5. 使用Group Conv对KV进行压缩,减少34%的train+infer时间。
6. 在从1K到4K的FT过程中,添加了PE Interpolation,加快收敛。
2. 阅读论文ToonSynth. 还没读完。捷克的一篇文章, 非常Insightful..

3. 验收训练模型。这批准确度远低于预期,有可能是学习率有问题,有可能是masking没有去掉。这样想来之前的效果好确实比较异常,可能确实是leakage导致的..

4. 融合modality训练。

5. 更新Awesome-Animation-Research。

6. 收集数据集。

7. 了解suno v3, 一个文字转音乐的模型。