照亮星星的人们 » 日志
【AI动画技术研究】日志更新(325)

2024-4-24 01:58 /

今日工作总结

1. 敲定当前T2V的pipeline，并完成最后的推理，计算metrics.

2. 调查V2T的pipelines，目前, Video Captioning的模型和架构以VLM的形式存在，近期有LlaVa, Video-LlaMa, EILEV等。不过由于Language Model Branch往往规模比较大(B级别以上)，因此FT可能不是一件容易的事情。

3. 收集数据。

Tags: AI动画技术研究系列

照亮星星的人们 » 日志【AI动画技术研究】日志更新(325)

照亮星星的人们 » 日志
【AI动画技术研究】日志更新(325)