建设多模态知识库可以参考以下方面:
此外,还可以参考一些相关的知识库文章,如“ChatBot 是怎么炼成的?”等,了解大模型下游应用的研发过程。
|标题|备注|作者|链接|发布日期|附件(1)|单选|<br>|-|-|-|-|-|-|-|<br>|ChatBot是怎么炼成的?|本文介绍了LLM基座大模型下游应用ChatBot的研发过程。在介绍ChatBot之前,作者先介绍了LLM在辅助编程方面的应用,主要包括Codex和AlphaCode两个奠基性工作。Codex提出了编程数据集和pass@k指标,并采用了2阶段训练方式。文章还介绍了Codex的局限性和辅助编程问题定义。|[aaronxic](https://www.zhihu.com/people/aaronxic)|[(3)ChatBot是怎么炼成的?](https://ywh1bkansf.feishu.cn/wiki/HRnLw588DiTDLPkSTXCcKit8nbD)|2023/07/08|||<br>|多模态的大一统之路|首先介绍了Vision Transformer的入门知识和相关的应用。包括了[ViT(2020.10)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2010.11929),[ViT-22B(2023.02)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2302.05442),[Swin Transformer(2021.08)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2103.14030),[MAE(2021.11)](https://link.zhihu.com/?
有效组织各种文件。通过聊天界面访问存储的信息。与他人轻松共享知识。将有价值的内容从视频和音频中转录出来。创建多语言的知识库。
大家好,我是小A。前面几篇我们已经了解了transformer是如何应用在LLM领域中,从这一篇开始我们进入多模态的领域,看看多模态是如何通过transformer架构逐渐走向大一统的。提纲如下,共5个章节首先介绍了Vision Transformer的入门知识和相关的应用。包括了[ViT(2020.10)](https://arxiv.org/abs/2010.11929),[ViT-22B(2023.02)](https://arxiv.org/abs/2302.05442),[Swin Transformer(2021.08)](https://arxiv.org/abs/2103.14030),[MAE(2021.11)](https://arxiv.org/abs/2111.06377),[BEiT(2021.06)](https://arxiv.org/abs/2106.08254),[BEiTv2(2022.08)](https://arxiv.org/abs/2208.06366),[TimeSFormer(2021.02)](https://arxiv.org/abs/2102.05095),[BEVFormer(2022.03)](https://arxiv.org/abs/2203.17270)。接着介绍了多模态任务、训练评测数据集和评测方法。包括了Video Action Recognition任务,Image Text Retrival任务,Image Caption任务,Visual QA任务,Visual Reasoning任务,Visual Entailment任务。