2024-2-25 02:30 /
今日工作总结

1. 完成了字幕模块的代码部署和性能测试,测试了几个比较热门的repo,最后选择了准确率最高但是速度最慢的那个。

2. 完成了两个SOTA LLMs的部署和性能测试。这算是目前为止遇到的最大的一个性能计算瓶颈,10 million sentences × 1024tokens = 10B tokens. 至少10台V100跑30天。还需要测试一下不那么computationally demanding的模型。

今天下午还和朋友讨论这事,现在的新论文都有一种默契:benckmark都会使用新的、效果更好的模型,尽管这些模型意味着更大的计算资源需求和时间消耗。虽然“通过实验论证证明最新的模型不具有显著优势”是可行的,但从范式和流行的角度上来说这种做法是否有些不入流派呢。