照亮星星的人们 » 日志
【AI动画技术研究】日志更新(282)

2024-3-9 16:29 /

今日工作总结

1. 阅读论文
(1) Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
(2) ViViT: A Video Vision Transformer
(3) Scalable Diffusion Models with Transformers
(4) FiT: Flexible Vision Transformer for Diffusion Model

(1)(2)(3)三篇是Sora技术报告中公开的主要技术基础。
(4)是北大OpenSora使用的论文。

2. 思考项目技术路线
(1) Triplet Contrastive Learning and T2V pretraining
(2) Timesheet / KF conditioning

Transformer想不到怎么融合TS和KF，Global PE的变体太多，整不明白。用SD思路清晰很多，需要再多看一些T2V的论文，看看fixed length是怎么处理的。

3. 代码工作
(1) Caption Fusing - multithreading
(2) FFmpeg Splitting - multiprocessing(manual)

4. New dataset collection(irrelevant to current project)

Tags: AI动画技术研究系列

照亮星星的人们 » 日志【AI动画技术研究】日志更新(282)

照亮星星的人们 » 日志
【AI动画技术研究】日志更新(282)