2024-4-24 01:58 /
今日工作总结

1. 敲定当前T2V的pipeline,并完成最后的推理,计算metrics.

2. 调查V2T的pipelines,目前, Video Captioning的模型和架构以VLM的形式存在,近期有LlaVa, Video-LlaMa, EILEV等。不过由于Language Model Branch往往规模比较大(B级别以上),因此FT可能不是一件容易的事情。

3. 收集数据。