2024-3-9 16:29 /
今日工作总结

1. 阅读论文
(1) Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
(2) ViViT: A Video Vision Transformer
(3) Scalable Diffusion Models with Transformers
(4) FiT: Flexible Vision Transformer for Diffusion Model

(1)(2)(3)三篇是Sora技术报告中公开的主要技术基础。
(4)是北大OpenSora使用的论文。

2. 思考项目技术路线
(1) Triplet Contrastive Learning and T2V pretraining
(2) Timesheet / KF conditioning

Transformer想不到怎么融合TS和KF,Global PE的变体太多,整不明白。用SD思路清晰很多,需要再多看一些T2V的论文,看看fixed length是怎么处理的。

3. 代码工作
(1) Caption Fusing - multithreading
(2) FFmpeg Splitting - multiprocessing(manual)

4. New dataset collection(irrelevant to current project)