最近新出的大模型有:
数字化的好处是便于计算机处理。但为了让计算机理解Token之间的联系,还需要把Token表示成稠密矩阵向量,这个过程称之为embedding([3]),常见的算法有:基于统计Word2Vec,通过上下文统计信息学习词向量GloVe,基于词共现统计信息学习词向量基于深度网络CNN,使用卷积网络获得图像或文本向量RNN/LSTM,利用序列模型获得文本向量基于神经网络BERT,基于Transformer和掩码语言建模(Masked LM)进行词向量预训练Doc2Vec,使用神经网络获得文本序列的向量以Transform为代表的大模型采用自注意力(Self-attention)机制来学习不同token之间的依赖关系,生成高质量embedding。大模型的“大”,指的是用于表达token之间关系的参数多,主要是指模型中的权重(weight)与偏置(bias),例如GPT-3拥有1750亿参数,其中权重数量达到了这一量级,而词汇表token数只有5万左右。参考:[How does an LLM"parameter"relate to a"weight"in a neural network?](https://datascience.stackexchange.com/questions/120764/how-does-an-llm-parameter-relate-to-a-weight-in-a-neural-network"How does an LLM"parameter"relate to a"weight"in a neural network?")
🔔Xiaohu.AI日报「1月28日」✨✨✨✨✨✨✨✨1⃣️🎉大年三十发模型:Qwen2.5-Max通义千问推出的大型专家模型(MoE),通过SFT和RLHF策略后训练,性能与顶尖模型竞争。在多个基准测试(Arena Hard、LiveBench、LiveCodeBench、GPQA-Diamond)中超越了DeepSeek V3。引发了AI社区对大规模专家模型的高度关注。🔗Blog:[https://qwenlm.github.io/blog/qwen2.5-max/](https://qwenlm.github.io/blog/qwen2.5-max/)🔗Qwen Chat:[https://chat.qwenlm.ai](https://chat.qwenlm.ai)(选择Qwen2.5-Max模型)🔗API:[https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE](https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE)🔗HF Demo:[https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo](https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo)2⃣️🖼️阿里云发布Qwen2.5-VL:新一代视觉语言模型
🔔Xiaohu.AI日报「1月28日」✨✨✨✨✨✨✨✨1⃣️🎉大年三十发模型:Qwen2.5-Max通义千问推出的大型专家模型(MoE),通过SFT和RLHF策略后训练,性能与顶尖模型竞争。在多个基准测试(Arena Hard、LiveBench、LiveCodeBench、GPQA-Diamond)中超越了DeepSeek V3。引发了AI社区对大规模专家模型的高度关注。🔗Blog:[https://qwenlm.github.io/blog/qwen2.5-max/](https://qwenlm.github.io/blog/qwen2.5-max/)🔗Qwen Chat:[https://chat.qwenlm.ai](https://chat.qwenlm.ai)(选择Qwen2.5-Max模型)🔗API:[https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE](https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE)🔗HF Demo:[https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo](https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo)2⃣️🖼️阿里云发布Qwen2.5-VL:新一代视觉语言模型