怎么建设多模态知识库 -WayToAGI

回答

建设多模态知识库可以参考以下方面：

学习相关知识：例如了解 Vision Transformer 的入门知识及其相关应用，包括 ViT(2020.10)、ViT-22B(2023.02)、Swin Transformer(2021.08)、MAE(2021.11)、BEiT(2021.06)、BEiTv2(2022.08)、TimeSFormer(2021.02)、BEVFormer(2022.03)等。
明确多模态任务、训练评测数据集和评测方法，例如 Video Action Recognition 任务、Image Text Retrival 任务、Image Caption 任务、Visual QA 任务、Visual Reasoning 任务、Visual Entailment 任务等。
利用效率工具：有效组织各种文件，通过聊天界面访问存储的信息，与他人轻松共享知识，将有价值的内容从视频和音频中转录出来，创建多语言的知识库。

此外，还可以参考一些相关的知识库文章，如“ChatBot 是怎么炼成的?”等，了解大模型下游应用的研发过程。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

|标题|备注|作者|链接|发布日期|附件(1)|单选|<br>|-|-|-|-|-|-|-|<br>|ChatBot是怎么炼成的?|本文介绍了LLM基座大模型下游应用ChatBot的研发过程。在介绍ChatBot之前，作者先介绍了LLM在辅助编程方面的应用，主要包括Codex和AlphaCode两个奠基性工作。Codex提出了编程数据集和pass@k指标，并采用了2阶段训练方式。文章还介绍了Codex的局限性和辅助编程问题定义。|[aaronxic](https://www.zhihu.com/people/aaronxic)|[（3）ChatBot是怎么炼成的?](https://ywh1bkansf.feishu.cn/wiki/HRnLw588DiTDLPkSTXCcKit8nbD)|2023/07/08|||<br>|多模态的大一统之路|首先介绍了Vision Transformer的入门知识和相关的应用。包括了[ViT(2020.10)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2010.11929)，[ViT-22B(2023.02)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2302.05442)，[Swin Transformer(2021.08)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2103.14030)，[MAE(2021.11)](https://link.zhihu.com/?

效率工具篇2-5000+个AI 项目详解

有效组织各种文件。通过聊天界面访问存储的信息。与他人轻松共享知识。将有价值的内容从视频和音频中转录出来。创建多语言的知识库。

（4）多模态的大一统之路

大家好，我是小A。前面几篇我们已经了解了transformer是如何应用在LLM领域中，从这一篇开始我们进入多模态的领域，看看多模态是如何通过transformer架构逐渐走向大一统的。提纲如下，共5个章节首先介绍了Vision Transformer的入门知识和相关的应用。包括了[ViT(2020.10)](https://arxiv.org/abs/2010.11929)，[ViT-22B(2023.02)](https://arxiv.org/abs/2302.05442)，[Swin Transformer(2021.08)](https://arxiv.org/abs/2103.14030)，[MAE(2021.11)](https://arxiv.org/abs/2111.06377)，[BEiT(2021.06)](https://arxiv.org/abs/2106.08254)，[BEiTv2(2022.08)](https://arxiv.org/abs/2208.06366)，[TimeSFormer(2021.02)](https://arxiv.org/abs/2102.05095)，[BEVFormer(2022.03)](https://arxiv.org/abs/2203.17270)。接着介绍了多模态任务、训练评测数据集和评测方法。包括了Video Action Recognition任务，Image Text Retrival任务，Image Caption任务，Visual QA任务，Visual Reasoning任务，Visual Entailment任务。