Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

近期的大模型进展

Answer

近期大模型的进展主要包括以下方面:

  • 多模态大模型:
    • 现状:随着数据集和模型规模扩大,传统多模态模型计算量大,研究重点在于各模态的连接,利用现成训练好的单模态基础模型可减少训练费用和提升效率。通过多模态预训练和指令微调实现模态对齐及模型输出与人类意图对齐是核心挑战。
    • 发展历程:最初集中在多模态内容理解和文本生成,如 Flamingo、BLIP-2 等;同时实现多模态输入和输出工作,如 MM-LMM;将 LLM 和外部工具继承进来,实现“any-to-any”的多模态理解和生成,如 visual-chatgpt 等;还有为减少级联过程中传播误差的工作。
  • 大型视觉模型 Sora:符合视觉模型的规模化定律,展示了新兴能力,包括遵循指令、视觉提示工程和视频理解等,是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的重要里程碑。
  • OpenAI 的新模型 o1-preview/mini:复杂问题思考过程长,相对简单问题也需 5 - 10 秒,使用条数少,冷却时间长,但推理模型准确率不断攀升,为行业注入了强心剂。
Content generated by AI large model, please carefully verify (powered by aily)

References

多模态大模型入门指南-长文慎入【持续更新】

最近,多模态大模型取得重大进展。随着数据集和模型的规模不断扩大,传统的MM模型带来了巨大的计算量,尤其是从头开始训练的话。研究人员意识到MM的研究重点工作在各个模态的连接上,所以一个合理的方法是利用好现成的训练好的单模态基础模型,尤其是LLM。这样可以减少多模态训练的费用,提升训练效率。MM-LLM利用LLM为各种MM任务提供认知能力。LLM具有良好的语言生成,zero-shot和ICL的能力。其他模态的基础模型则提供了高质量的表征。考虑到不同模态的模型是分开训练的,如何将不同模态连接起来,实现协同推理,是核心挑战。这里面的主要工作便是通过多模态预训练和多模态的指令微调,来实现模态之间的对齐,以及模型输出与人类意图的对齐。[heading3]1.2多模态的发展历程:[content]关于多模态的发展主要有:最初的发展集中在多模态的内容理解和文本的生成:Flamingo,BLIP-2,Kosmos-1,LLaVA/LLaVA-1.5/LLaVA-1.6,MiniGPT-4,MultiModal-GPT,Video-Chat,VIdeo-LLaMA,IDEFICS,Fuyu-8B,Qwen-Audio同时实现多模态的输入和输出工作MM-LMM,探索特定模态的生成,例如Kosmos-2,Mini-GPT5,以及语音生成的SpeechGPT将LLM和外部工具继承进来,实现“any-to-any”的多模态理解和生成。visual-chatgpt,ViperGPT,MM-React,HuggingGPT,AudioGPT同样,有为了减少级联过程中传播误差的工作,有NExT-GPT和CoDI-2,来开发任意模式的多模态模型

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

视觉模型的规模化定律。有了LLMs的规模化定律,自然会问视觉模型的发展是否遵循类似的规模化定律。最近,Zhai等人[24]展示了,有足够训练数据的ViT模型的性能-计算前沿大致遵循(饱和)幂律。继他们之后,谷歌研究[25]提出了一种高效稳定训练22B参数ViT的方法。结果显示,使用冻结模型产生嵌入,然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型(LVM),符合这些规模化原则,揭示了文本到视频生成中的几种新兴能力。这一重大进展强调了LVMs实现类似LLMs所见进步的潜力。新兴能力。LLMs中的新兴能力是在某些规模上——通常与模型参数的大小有关——表现出的复杂行为或功能,这些行为或功能并未被开发者明确编程或预期。这些能力被称为“新兴”,因为它们源于模型在多样化数据集上的全面训练,以及其庞大的参数数量。这种组合使模型能够形成联系并做出超越简单模式识别或死记硬背的推断。通常,这些能力的出现不能通过从小规模模型的性能外推来直接预测。虽然许多LLMs,如ChatGPT和GPT-4,展示了新兴能力,但直到Sora的出现,展示类似能力的视觉模型还很少。根据Sora的技术报告,它是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。除了其新兴能力,Sora还展示了其他显著能力,包括遵循指令、视觉提示工程和视频理解。Sora的这些功能方面代表了视觉领域的重大进步,并将在后续部分进行探讨和讨论。

OpenAI:我憋了个新大招儿,它叫o1-preview/mini

[title]OpenAI:我憋了个新大招儿,它叫o1-preview/mini其次,今天凌晨第一批吃螃蟹的用户已经体验过了,从各群、各微、各推的反馈来看,复杂问题的思考过程长达30s,而相对简单的问题则要5-10s之间。就连OpenAI给出的模型速度示例中,o1-preview的速度也是偏慢的。最后,让人有点郁闷的是,新模型(o1-preview/mini)的使用条数太少了,而且冷却时间相当长,按照少数AI先锋(@陈财猫)的测试,o1-preview的冷却时间长达7天。这一周几十条的用量也顶多算是打打牙祭...最后,我想分享一些个人的思考和感悟。随着这两年来对模型发展的观察,我看到了一个明显的趋势:仅仅依靠生成式应用的场景是相当有限的。尤其是toB领域,我们遇到的更多是对准确性要求极高的场景,甚至需要100%准确的情况,比如安全领域和金融领域,这些都是差之毫厘谬之千里的业务。而大模型的局限性也是常常在于此(幻觉)。但推理模型的准确率不断攀升、甚至达到完全可信的地步确实是一件非常惊喜又恐怖的事情。之前让模型干创意的活儿,现在又能干精确的活儿,这属于全场景覆盖!这意味着AI技术可以渗透到更多行业、更多高精尖业务中去!同时,我回想起老师曾经对我说过的一句话:"不管现在的大模型处理速度多慢,操作多么繁琐,只要能保证最终结果的正确性,它就拥有无限的可能性。"我觉得老师的话不无道理,不要看现在新模型的推理速度慢,但这些都可以通过增配新硬件去解决,只要钱到位,这都不是问题。况且,这也可能是慢思考系统的一种呢?你说对吧!再者,在今年上半年,甚至是上个月,很多人还在担忧大模型的前景。但OpenAI推出的新模型无疑给这个行业注入了一剂强心剂,为整个领域带来了新的活力和希望。这是令人赞叹和振奋的。

Others are asking
国外比较主流的大模型有哪些
国外比较主流的大模型有: 1. GPT4Turbo:OpenAI 于 2023 年 11 月 7 日发布的 GPT4 的升级版本。 2. GPT4(网页版):OpenAI GPT4 官方网页版本,支持联网功能。 3. GPT4(API):OpenAI GPT4 官方 API 版本,不支持联网功能。 4. Claude2:Anthropic 官方发布的模型。 5. Geminipro:Google 官方发布的模型。 6. GPT3.5Turbo:OpenAI 的模型。 7. Llama_2_13B_Chat:Meta 发布的模型。
2025-01-03
请帮我推荐一个写自媒体脚本的模型
以下为您推荐一些可用于写自媒体脚本的模型: 1. Kimi:免费好用,网址为 https://kimi.moonshot.cn/ 。 2. Claude:在脚本创作方面有优势,网址为 https://claude.ai/new 。 3. Chatgpt:老牌且功能更强大,网址为 https://chatgpt.com/ 。 写脚本的提示词结构为:我要做什么样的视频+视频要包含哪些关键的元素+对脚本的输出有什么要求。 例如: 我要做什么样的视频:比如要做 30 秒时长的广告宣传片脚本、做一个孩子们喜欢的儿童绘本脚本等等。 视频要包含哪些关键的元素:重点要把产品的特性或者您想要的广告风格说出来,比如奔驰高端商务、豪华舒适的特性,苹果香脆多汁、红润饱满的特点。 对脚本的输出有什么要求:按照一定的格式输出,推荐使用 Markdown 格式输出,方便后续操作。
2025-01-03
flux模型风格提示词
以下是关于 Flux 模型风格提示词的相关信息: ComfyUI Flux redux: Redux 模型是轻量级的,可与 Flux.1配合使用,基于 1 个输入图像生成图像变体,无需提示,适合快速生成特定样式图像。 往一张图上融合时,提示词最好描述图片背景颜色。 将 Redux 模型下载到 comfyui/models/style_models,下载 sigclip_patch14384.safetensors 到 ComfyUI/models/clip_vision。 重绘节点为 ComfyUIInpaintEasy,相关链接:https://github.com/CYCHENYUE/ComfyUIInpaintEasy。 ComfyUI FLUX 模型的安装部署: 模型 FLUX.1中,建议选择 dev 版本,显卡可以的用 fp16,显卡不够用的选 fp8。模型下载后放入 ComfyUI/models/unet/文件夹中。若爆显存,“UNET 加载器”节点中的 weight_dtype 可设置为 fp8 降低显存使用量,但可能稍降质量,默认的 weight_type 显存使用较大。 clip 方面,t5xxl_fp16.safetensors 和 clip_l.safetensors 放在 ComfyUI/models/clip/文件夹里,相关链接:https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main。可用 t5xxl_fp8_e4m3fn.safetensors 降低内存使用率,有超过 32GB 内存建议用 fp16。 Vae 下载后放入 ComfyUI/models/vae 文件夹,相关链接:https://huggingface.co/blackforestlabs/FLUX.1schnell/tree/main。 T5(/t5xxl_fp16.safetensors)的 clip 原本有输入输出,可能会导致提示词被吞,短提示效果差,训练 flux 或 sd3 时应尽量用长提示词或自然语言。 STYLE PROMPTS 风格: Stratospheric:关联流派为 Soundtrack、Classical、Orchestral。指高空和极高的音乐风格,具有高亢壮丽特质,典型用于表现高空和极高情感的音乐作品,示例为 Queen 的《Bohemian Rhapsody》。 Streetwise:关联流派为 HipHop、Rap、R&B。指街头和世故的音乐风格,具有现实机智特质,典型用于表现街头和世故情感的音乐作品,示例为 JayZ 的《Empire State of Mind》。 Strength:关联流派为 Rock、Hard Rock、Arena Rock。指力量和坚强的音乐风格,具有强大坚定特质,典型用于表现力量和坚强情感的音乐作品,示例为 Survivor 的《Eye of the Tiger》。 Stressful:关联流派为 Progressive Rock、Psychedelic Rock、Classic Rock。指紧张和压力的音乐风格,具有紧张焦虑特质,典型用于表现紧张和压力情感的音乐作品,示例为 Pink Floyd 的《Time》。 Stretching:指延伸和扩展的音乐风格,具有延展渐进特质,典型用于表现延伸和扩展情感的音乐作品。
2025-01-03
有哪些能够生成海报的模型
以下是一些能够生成海报的模型: 1. 即梦:上线了 2.1 图片模型,可以生成中英文字体,直出海报,还能生成带字表情包、漫画等。网址:https://jimeng.jianying.com/aitool/image/generate 。 2. coze:网址:https://www.coze.cn/template/project/7442540084944994344? 。 3. 第二十五期海报 text poster: 该 lora 可以生成各种由英文文字组成的海报内容主体。触发词:text poster 。模型权重:0.6 1 。 模型地址:lora 模型地址:https://www.liblib.art/modelinfo/579ab130b53246fea49811bf80d38486?from=search&versionUuid=f5b11931206347fdb3c32cbe9d7beeb0 。 使用方式: 在线运行,flux 文生图工作流,可以直接在哩布在线运行 https://www.liblib.art/modelinfo/94d301cd81d7478fa99b281c68ba9324?from=personal_page&versionUuid=c8d15096723c4e41a0bafda30e6bbd88 。 本地运行,可以利用(https://github.com/siliconflo 。 4. 【06】在线生图定制主题海报: 操作步骤: 选择模型:推荐使用的模型,如(例图 1)风格模型>中国风>水墨工笔;(例图 2)风格模型>儿童>童话绘本;(例图 3)风格模型>MJ>剪纸艺术;(例图 4)风格模型>儿童>皮克斯(模型选择过程如图所示)。 输入画面描述:更好地描述画面,如使用本课件提供的自选关键词,按主体+氛围+视角+画质的顺序输入关键词,使用括号()强调关键词。 选择画面大小:无界 AI 已将尺寸与用途标注在选项中,制作主题海报可选择 9:16 的宣传海报比例,选择 17283072 的分辨率可以更快生成图片。 其他设置:作图数量的作用,增加作图数量可以在同样参数的控制下一次性生成多幅图片,方便挑选。 优化海报:使用可画(https://www.canva.cn/?displaycomoption=true)在线编辑海报。
2025-01-03
有哪些用于宣传海报拼接生成的,图片拼接生成模型
以下是一些用于宣传海报拼接生成的图片拼接生成模型及相关信息: 1. 在线生图定制主题海报: 选择模型:推荐使用不同风格的模型,如(例图 1)风格模型>中国风>水墨工笔、(例图 2)风格模型>儿童>童话绘本、(例图 3)风格模型>MJ>剪纸艺术、(例图 4)风格模型>儿童>皮克斯。 输入画面描述:按主体+氛围+视角+画质的顺序输入关键词,可使用本课件提供的自选关键词,并用括号()强调关键词。 选择画面大小:制作主题海报可选择 9:16 的宣传海报比例,选择 17283072 的分辨率可更快生成图片。 其他设置:增加作图数量可一次性生成多幅图片方便挑选。 优化海报:使用可画(https://www.canva.cn/?displaycomoption=true)在线编辑海报。 2. 即梦: 即梦上线了 2.1 图片模型,可以生成中英文字体,能生成海报、带字表情包、漫画等。 操作步骤:第一步打开即梦官网 https://jimeng.jianying.com/ ,第二步点击进入图片生成页面,第三步生图模型选择图片 2.1 模型。 案例:如提示词为“咖啡店穿着服务员服装的猫咪,揉着眼睛,文字‘小店打烊了’”“一只布偶猫举着牌子,牌子上写着‘睡什么睡,起来嗨’”“电影宣传海报,画面中间是韦小宝,四周是七个宫女,标题文字‘重生之我是韦小宝’”“电商节日海报,背景是上海外滩,圣诞节布置,旋转木马,节日的气氛,标题文字‘圣诞集市’”。
2025-01-03
写小说,推荐哪个开源模型呢?
以下是为您推荐的一些可用于写小说的开源模型及相关资源: 1. Kolors 开源模型: 相关教学视频: ,作者为吴杨峰。 ,作者为楚门的 AI 世界。 。 ,作者为不懂技术就用 AI 呀。 2. 辅助创作的 AI 工具: ChatGPT:擅长构思。 Claude:文笔好于 ChatGPT。 彩云小梦、Kimi、MidReal 等。 此外,还有一些关于用 AI 写小说的相关知识: 1. 让 AI 写小说存在一些问题,如上下文长度限制、容易忘记要求、文笔简略、一致性难以保证等。 2. 对于某些问题,如“保持创意简洁”“危机快速来临”,AI 不容易犯,但对叙述方式比较敏感,写 prompt 时要保持用词一致。 3. AI 只是辅助创作,最后仍需人工加工和修改以满足读者要求。
2025-01-02
端到端语音技术现在进展到什么程度了
端到端语音技术目前取得了显著进展。 在语音合成方面: 语音合成将文本转换为可听的声音信息,是人机交互的重要接口,一般包括 TTS、歌唱合成等领域。 当代工业界主流语音合成系统包括文本前端和声学后端两个部分。文本前端将输入文本转换为层次化的语音学表征,声学后端基于此生成语音,主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法,当代主要采用端到端声学后端。 端到端声学后端一般包括声学模型和声码器两部分,也出现了直接从音素映射为波形的完全端到端语音合成系统。 在全模态智能体方面: OpenAI 发布的 GPT4o 是新模型通过端到端的神经网络,把视觉、语音和文本数据混合训练,对音频输入的平均反应时间为 300 毫秒,与人类对话的反应时间相似。 直接拿音频数据来训练的好处是模型能从数据中感悟到人类表达的情绪、语调、风格等,能听到几乎真实的人类的声音。 OpenAI 未公开 GPT4o 的技术细节,唯一线索来自内部模型炼丹师的一篇博客,项目名是 AudioLM,目标是用端到端的方式扩大语音模型的能力。
2025-01-03
AI在电商直播带货有什么新进展吗
AI 在电商直播带货领域有以下新进展: 1. “全真 AI 颜值网红”出现,可以稳定输出视频,并能够进行直播带货。 2. 数字人工具软件方面,有实时驱动和非实时驱动两类,实时驱动在直播时能改音频话术,真人可接管,标准零售价一年 4 6 万往上;非实时驱动一个月 600 元,效果差,市场价格混乱。 3. 数字人运营服务可按直播间成交额抽佣。 4. 适用于不需要强展示的商品,如品牌食品饮料,以及虚拟商品如门票、优惠券等,店播效果较好,数据基本能保持跟真人一样。不适用于促销场景。 5. 目前技术仍显稚嫩,如更真实的对口型、更低的响应延迟等方面有待提高。 6. 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 7. 有资源、有业务的大平台下场可能会带来降维打击,例如剪映若全环节打通会绑定商家。 8. 欧莱雅、YSL、兰蔻、李宁、北面等品牌会选择使用 AI 驱动的虚拟主播进行自播,但通常只在午夜时段排期。 9. 阿里云提供的品牌智能直播间基础版售价为 99000 元/(年×路),提供多种功能。 10. 虚拟形象有 3D 卡通风格和 2D 拟真人风格,预设动作库和真实语音表现,商品展示以图片为主,直播互动流程相对固定。但虚拟主播无法与产品接触,测评结果缺乏真实性,目前更像是花瓶,负责基础性介绍和互动问答。
2024-12-07
AI在机械制图方面有什么进展吗
AI 在机械制图方面的进展相对有限。然而,在艺术创作领域,特别是 AI 绘画方面有显著的发展。从早期的机械臂机器人到当前的大语言模型,技术的进步使得 AI 绘画在创作质量和速度上取得了新的突破。 AI 绘画不仅改变了艺术作品的创作方式,还对艺术的审美观念和市场需求产生了影响。但同时也引发了一系列讨论和争议。一方面,人们对于由 AI 驱动的机器人创作的艺术品和人类创作的艺术品的接受程度大致相同,但不太愿意将机器人视为艺术家,因为 AI 在表达情感和创造性意图方面存在局限性。另一方面,艺术家对 AI 生成艺术的态度复杂,既有对创新潜力的期待,也有对版权、原创性和伦理问题的担忧。 此外,AI 绘画技术的发展带来了对文化创意领域从业者职业安全的焦虑,以及对其“侵权”嫌疑的反对之声。不过,AI 绘画也为艺术创作提供了新的可能性,能帮助艺术家探索新的创意表达方式,提高制作效率,降低制作成本,促进艺术与观众之间的互动,提供更加个性化和互动的艺术体验。 总的来说,AI 绘画对艺术界的影响是复杂且双面的,既提供了新的创作工具和可能性,也引发了关于艺术本质、创造性、版权和伦理的重要讨论。但目前在机械制图领域,相关进展尚不明显。
2024-12-07
AI方面有什么最新进展
以下是 AI 方面的一些最新进展: 1. 2024 人工智能现状报告:由剑桥大学和 AI 风险投资公司 Air Street Capital 的相关人员共同发表,围绕人工智能领域的最新进展、政治动态、安全挑战及未来预测几大方面进行说明。 2. AI 绘画:从生成艺术作品到辅助艺术创作,逐渐改变传统艺术面貌。技术进步使创作质量和速度取得突破,为艺术家提供新工具和可能性,但也引发了关于艺术本质、创造性、版权和伦理的讨论,带来对从业者职业安全的焦虑和“侵权”嫌疑的反对之声。 3. 技术历史和发展方向: 发展历程:包括早期阶段的专家系统、博弈论、机器学习初步理论;知识驱动时期的专家系统、知识表示、自动推理;统计学习时期的机器学习算法;深度学习时期的深度神经网络等。 前沿技术点:大模型(如 GPT、PaLM 等)、多模态 AI(视觉语言模型、多模态融合)、自监督学习、小样本学习、可解释 AI、机器人学、量子 AI、AI 芯片和硬件加速。
2024-12-05
现阶段应对ai诈骗研究进展
现阶段应对 AI 诈骗的研究进展主要包括以下方面: 拜登签署的 AI 行政命令要求开发最强大 AI 系统的开发者与美国政府分享安全测试结果等关键信息。对于可能对国家安全、经济安全、公共卫生和安全构成严重风险的基础模型,开发公司在训练模型时必须通知联邦政府,并分享所有红队安全测试的结果。商务部将为内容认证和水印制定指导方针,以清晰标记 AI 生成的内容,联邦机构将使用这些工具让美国人容易知晓从政府收到的通信是真实的,并为私营部门和世界各国政府树立榜样。 OpenAI 提出通过“指令层次结构”修复“忽略所有先前指令”攻击的方法,并已在 GPT40 Mini 中部署。Anthropic 在多重越狱方面的工作表明了“警告防御”的潜力,在前面和后面添加警告文本以警示模型。Gray Swan AI 的安全专家试用“断路器”,专注于重新映射有害表示。LLM 测试初创公司 Haize Labs 与 Hugging Face 合作创建了首个红队抵抗组织基准,Scale 根据私人评估推出了自己的稳健性排行榜。 除了常见的越狱攻击,还存在更隐蔽的攻击,如伯克利和麻省理工学院的研究人员创建的看似无害的数据集,会训练模型响应编码请求产生有害输出。
2024-12-02
ai诈骗现阶段研究进展及其成果
目前关于 AI 诈骗的研究进展及成果的相关内容较少。但在 AI 领域,以下方面的研究成果可能对理解 AI 诈骗有所帮助: 神经网络研究:自 2010 年左右,大型公共数据集的出现推动了神经网络的发展。2012 年卷积神经网络用于图像分类,错误率大幅下降。2015 年微软研究院的 ResNet 架构达到人类水平准确率。此后,神经网络在图像分类、对话语音识别、自动化机器翻译、图像描述等任务中表现成功。 AI 幻觉应对:研究人员开发多种技术手段应对,如进行数据“体检”,包括数据清洗去除错误信息、补充缺失数据等,以及数据增强为模型提供更多丰富训练数据。 政策方面:拜登签署的 AI 行政命令中,要求最强大的 AI 系统开发者与美国政府分享安全测试结果等关键信息,制定确保 AI 系统安全可靠的标准、工具和测试,建立相关安全委员会,应对 AI 对关键基础设施的威胁,制定防范利用 AI 制造危险生物材料的新标准,建立检测 AI 生成内容和认证官方内容的标准及最佳实践以防范 AI 导致的欺诈和欺骗。
2024-12-02
案例:借助人工智能技术的诈骗 一、案例材料 1.背景资料 (1)近期全国范围内出现了一种新型电信诈骗——AI换脸诈骗,该诈骗利用AI人工智能,通过“换脸”和“拟声”技术模仿受害人的朋友或亲戚的声音和外貌,以此骗取受害者的信任,进行网络诈骗,近日包头警方就根据一起典型案例,向大家发出了防范AI换脸诈骗的警示。 财联社5月22日讯,据平安包头微信公众号消息,包头警方发布了一起利用人工智能(AI)实施电信诈骗的典型案例,一家福州市科技公司的法人代表郭先生竟在短短10分钟内被骗走了430万元人民币。
以下是关于 AI 的相关内容: 律师如何写好提示词用好 AI: 对于不具备理工科背景的文科生,可将 AI 视为黑箱,只需知道其能模仿人类思维理解和输出自然语言。AI 就像似人而非人的存在,与传统道教的驱神役鬼拘灵遣将有相似之处。提示词应是相对完善的“谈话方案”,成果在与 AI 的对话中产生,要接受其存在的“不稳定性”,并在对话中限缩自己思维的模糊地带。 AI 的应用场景: 医疗保健:包括医学影像分析、药物研发、个性化医疗、机器人辅助手术等。 金融服务:涵盖风控和反欺诈、信用评估、投资分析、客户服务等。 零售和电子商务:有产品推荐、搜索和个性化、动态定价、聊天机器人等。 制造业:包含预测性维护、质量控制、供应链管理、机器人自动化等。 交通运输:(未具体阐述)
2024-12-25
AI领域近期新闻
以下是 AI 领域近期的一些新闻: 2024 年,在全球芯片出口管制下,中国仍是重要市场。美国商务部长吉娜·雷蒙多警告英伟达,中国在美芯片制造商中所占份额减少,但当地分支机构目前未受控制。字节跳动通过美国的甲骨文租用 NVIDIA H100 访问权限,阿里巴巴和腾讯与 NVIDIA 就在美国建立数据中心进行谈判,谷歌和微软向中国大型企业推销云服务。 模型提供成本下降,如 OpenAI 提供强大模型的推断成本下降 100 倍,Google Gemini 相关产品价格下降且性能强劲。由于计算成本高,模型构建者越来越依赖与大型科技公司合作,反垄断监管机构对此表示担忧。 10 月的 AI 行业大事记包括:9 月 27 日 Reecho 睿声三只羊录音事件涉及的 AI 公司出面回应;9 月 28 日 TeleAI 正式开源 TeleChat2115B;10 月 1 日快手可灵 AI 全面开放 API;10 月 2 日 Black Forest Labs 发布 FLUX1.1,苹果推出多模态大模型 MM1.5;10 月 3 日 OpenAI 发布 ChatGPT Canvas;10 月 8 日 2024 年诺贝尔物理学奖;10 月 9 日 2024 年诺贝尔化学奖;10 月 10 日字节发布首款 AI 智能体耳机 Ola Friend,Vivo 增加蓝心端侧大模型 3B,谷歌图像生成模型 Imagen 3 开放使用,智源 BGE 登顶 Hugging Face 月榜,State of AI 2024 报告发布;10 月 11 日智谱 GLM4Flash 与“沉浸式翻译”合作,北大、北邮和快手开源高清视频生成模型 Pyramid Flow;10 月 12 日 OpenAI 开源多智能体协作框架 Swarm,深势科技完成数亿元人民币新一轮融资,苹果质疑当前 LLM 缺乏真正的逻辑推理能力;10 月 14 日。
2024-12-13
近期典型的企业大模型应用案例有什么
以下是近期典型的企业大模型应用案例: 彭博发布了金融领域的大模型 BloombergGPT,应用于其所在的垂直领域。 医联发布了内首款医疗大语言模型 MedGPT,可在真实医疗场景中发挥实际诊疗价值。 在解决大模型落地难的问题方面: 提高内容可信:如周伯文认为应做具备通用能力的大模型,并通过商业交付、反馈和评测来解决;中国科学院院士张钹指出 ChatGPT 没有自我学习能力,需用更多数据优化以解决实际应用问题;旷视科技物流业务事业部的负责人徐庆才提到大模型走向垂直化以提高内容精准度。 解决算力成本高、训练重复和资源紧缺的问题:一家 AI 算力公司联合创始人张新提到以 GPT3 模型为例,训练成本高昂,且全行业训练卡涨价,目前仍无法用商业化的国产芯片进行大模型训练。 此外,2024 年 7 月 12 日的《》汇集了 97 个优秀案例,展示了大模型技术在教育、医疗、金融、政务等多个行业和领域的应用,案例由阿里云、百度、华为等领先企业实施,上海成为应用落地的热点地区,大中型企业是主要试验场,AI 智能体和知识库成为提升大模型落地实效的关键手段。 相关报告还有: 《》 《》 《》
2024-12-02
近期有什么新的AI软件?
以下是近期一些新的 AI 软件: You.com:是一款具有多种搜索模式且注重隐私的搜索引擎。 Genspark:通过 Sparkpages 来满足用户个性化的搜索需求。 Rockset:刚被 OpenAI 收购,提供实时搜索和分析数据库服务。 Butterflies AI:人类与 AI 共存的社交软件。 MeetRecord:可以对销售通话进行记录和辅导的 AI 助手。 此外,还有以下一些 AI 应用: 超级简历优化助手:AI 简历优化工具,使用自然语言处理技术,帮助用户优化简历提高求职成功率。 酷家乐等设计软件:AI 室内设计方案生成,结合图像生成、机器学习技术,快速生成个性化室内设计方案。 Amper Music:AI 音乐创作辅助工具,运用机器学习、音频处理技术,协助音乐创作者进行创作。 松果倾诉智能助手:AI 情感咨询助手,基于自然语言处理、情感分析技术,为用户提供情感支持和建议。 小佩宠物智能设备:AI 宠物健康监测设备,借助传感器数据处理、机器学习技术,实时监测宠物健康状况。 马蜂窝智能行程规划:AI 旅游行程规划器,利用数据分析、自然语言处理技术,根据用户需求生成个性化旅游行程。 作业帮智能辅导:AI 在线教育个性化辅导,通过机器学习、自然语言处理技术,为学生提供个性化学习辅导。 另外还有: AI 游戏道具推荐系统:利用数据分析、机器学习技术,根据玩家需求推荐游戏道具。 AI 天气预报分时服务:基于数据分析、机器学习技术,如彩云天气分时预报,提供精准的分时天气预报。 AI 医疗病历分析平台:运用数据分析、自然语言处理技术,如医渡云病历分析系统,分析医疗病历,辅助诊断。 AI 会议发言总结工具:借助自然语言处理、机器学习技术,如讯飞听见会议总结功能,自动总结会议发言内容。 AI 书法作品临摹辅助工具:通过图像识别、数据分析技术,如书法临摹软件,帮助书法爱好者进行临摹。
2024-11-10
Way to AGI 近期更新
以下是关于 Way to AGI 的近期更新信息: Runway 官方镜头提示词相关: 官方镜头指南:https://help.runwayml.com/hc/enus/ 相关文章:articles/30586818553107Gen3AlphaPromptingGuide 生图官网:https://app.runwayml.com/videotools/teams/aimwisetonix/aitools/generativevideo 小互动:最下面一起生文字“WaytoAGI”回头剪辑到一起 此次更新适合参加本期 video battle 官方效果: Gen3 Alpha 上线,具有无限潜力,可将艺术视野带入生活。创建传达场景的强烈提示是生成与概念一致视频的关键,涵盖不同示例结构、关键字和提示帮助使用 Gen3 Alpha,鼓励实践时大胆实验。 知识库介绍: 原文《WaytoAGI:找到了 AI 知识付费的免费源头,让更多人因 AI 而强大!》 WayToAGI 是由热爱 AI 的专家和爱好者共同建设的开源 AI 知识库,大家贡献并整合各种 AI 资源,方便大家学习 AI 知识、应用工具和实战案例等。 提供一系列开箱即用的工具,如文生图、文生视频、文生语音等详尽教程,将文字化为视觉与听觉现实。 追踪 AI 领域最新进展,时刻更新,每次访问都有新收获。 无论初学者还是行业专家,都能发掘有价值内容。 链接:https://waytoagi.com/(通往 AGI 之路) 即刻体验:https://waytoagi.com/
2024-11-04
近期融资的ai行业上市公司
以下是近期融资的 AI 行业上市公司的相关信息: Celestial AI 融资 1 亿美元,用于使用基于光的互连传输数据。 Zenarate 融资 1500 万美元,是提供 AI 模拟培训平台的公司。 Augmedics 获得 8250 万美元,用于使用 AR 和 AI 进行脊柱手术。 CalypsoAI 筹集了 2300 万美元,用于生成 AI 模型的护栏。 2024 年美国融资金额超过 1 亿美元的 AI 公司(截止 2024.10.15): |项目名称|融资时间|融资金额(亿美元)|轮次|估值(亿美元)|主营|产业链标签|话题标签|投资方|其他信息| ||||||||||| |Weka|20240513|1.4|E|16|AI 原生数据平台|应用|数据|Valor Equity Partners, 高通创投, Nvidia, 日立创投| |CoreWeave|20240501|11|C|190|GPU 基础设施|基础设施|硬件和云平台|Coatue, Fidelity, Altimeter Capital, Magnetar Capital| |Scale AI|202405|10|F|140|数据标记服务|应用|数据|Accel, Tiger Global, Spark Capital, 亚马逊| |Blaize|20240429|1.06|D||AI 边缘计算平台|基础设施|硬件和云平台|淡马锡, 富兰克林邓普顿, Bess Ventures| |Augment|20240424|2.27|B|10|AI 编码辅助|应用|编程|Lightspeed Venture Partners, Index Ventures, Sutter Hill Ventures| |Cognition|20240424|1.75||20|端到端软件 Agents|应用|编程|Founders Fund, Ramp 联合创始人 Eric Glyman, Stripe 联合创始人 Patrick 和 John Collison, DoorDash 联合创始人 Tony Xu| |Xaira Therapeutics|20240423|10|A||AI 药物研发|应用|医学|Foresite Capital, ARCH Venture Partners| 近期热门融资 AI 产品速递 1 st : You.com 已完成多轮融资,包括来自 Salesforce CEO Marc Benioff 的 2000 万美元资金和 4500 万美元的募资。目前,You.com 用户数量稳定增长,已超过 10 万。体验链接:www.you.com
2024-10-28