Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

视觉大模型的代表模型有哪些

Answer

以下是一些视觉大模型的代表模型:

  1. Flamingo:一系列视觉语言(VL)模型,能处理交错的视觉数据和文本,并生成自由格式的文本输出。
  2. BLIP-2:引入资源效率更高的框架,包括用于弥补模态差距的轻量级 Q-Former,能利用冻结的 LLM 进行零样本图像到文本的生成。
  3. LLaVA:率先将 IT 技术应用到 MM 领域,引入新型开源 MM 指令跟踪数据集及基准 LLaVA-Bench 以解决数据稀缺问题。
  4. MiniGPT-4:提出简化方法,仅训练一个线性层即可将预训练的视觉编码器与 LLM 对齐,复制 GPT-4 的功能。
  5. mPLUG-Owl:提出新颖的 MM-LLMs 模块化训练框架,结合视觉上下文,包含 OwlEval 教学评估数据集。
  6. X-LLM:扩展到包括音频在内的各种模式,具有强大的可扩展性,利用 Q-Former 的语言可迁移性应用于汉藏语境。
  7. VideoChat:开创高效的以聊天为中心的 MM-LLM 用于视频理解对话,为该领域的未来研究制定标准。
  8. Sora:符合视觉模型的规模化定律,是第一个展示确认新兴能力的视觉模型,包括遵循指令、视觉提示工程和视频理解等功能,能够根据人类指令生成长达一分钟的视频。
  9. CLIP:开创性的视觉-语言模型,将变压器架构与视觉元素结合,能在多模态生成框架中充当图像编码器。
  10. Stable Diffusion:多才多艺的文本到图像 AI 模型,采用变压器架构和潜在扩散技术生成各种风格的图像。
Content generated by AI large model, please carefully verify (powered by aily)

References

多模态大模型入门指南-长文慎入【持续更新】

如表1所示,对26 SOTA MM-LLMs的架构和训练数据集规模进行了全面比较。随后,简要介绍这些模型的核心贡献并总结了它们的发展趋势。(1)Flamingo。代表了一系列视觉语言(VL)模型,旨在处理交错的视觉数据和文本,生成自由格式的文本作为输出。(2)BLIP-2引入了一个资源效率更高的框架,包括用于弥补模态差距的轻量级Q-Former,实现对冻结LLMs的充分利用。利用LLMs,BLIP-2可以使用自然语言提示进行零样本图像到文本的生成。(3)LLaVA率先将IT技术应用到MM领域。为了解决数据稀缺问题,LLaVA引入了使用ChatGPT/GPT-4创建的新型开源MM指令跟踪数据集以及MM指令跟踪基准LLaVA-Bench。(4)MiniGPT-4提出了一种简化的方法,仅训练一个线性层即可将预训练的视觉编码器与LLM对齐。这种有效的方法能够复制GPT-4所展示的功能。(5)mPLUG-Owl提出了一种新颖的MM-LLMs模块化训练框架,结合了视觉上下文。为了评估不同模型在MM任务中的表现,该框架包含一个名为OwlEval的教学评估数据集。(6)X-LLM陈等人扩展到包括音频在内的各种模式,并表现出强大的可扩展性。利用Q-Former的语言可迁移性,X-LLM成功应用于汉藏语境。(7)VideoChat开创了一种高效的以聊天为中心的MM-LLM用于视频理解对话,为该领域的未来研究制定标准,并为学术界和工业界提供协议。

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

视觉模型的规模化定律。有了LLMs的规模化定律,自然会问视觉模型的发展是否遵循类似的规模化定律。最近,Zhai等人[24]展示了,有足够训练数据的ViT模型的性能-计算前沿大致遵循(饱和)幂律。继他们之后,谷歌研究[25]提出了一种高效稳定训练22B参数ViT的方法。结果显示,使用冻结模型产生嵌入,然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型(LVM),符合这些规模化原则,揭示了文本到视频生成中的几种新兴能力。这一重大进展强调了LVMs实现类似LLMs所见进步的潜力。新兴能力。LLMs中的新兴能力是在某些规模上——通常与模型参数的大小有关——表现出的复杂行为或功能,这些行为或功能并未被开发者明确编程或预期。这些能力被称为“新兴”,因为它们源于模型在多样化数据集上的全面训练,以及其庞大的参数数量。这种组合使模型能够形成联系并做出超越简单模式识别或死记硬背的推断。通常,这些能力的出现不能通过从小规模模型的性能外推来直接预测。虽然许多LLMs,如ChatGPT和GPT-4,展示了新兴能力,但直到Sora的出现,展示类似能力的视觉模型还很少。根据Sora的技术报告,它是第一个展示确认新兴能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。除了其新兴能力,Sora还展示了其他显著能力,包括遵循指令、视觉提示工程和视频理解。Sora的这些功能方面代表了视觉领域的重大进步,并将在后续部分进行探讨和讨论。

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

自2021年以来,AI领域的一个重要焦点是能够解释人类指令的生成式语言和视觉模型,即多模态模型。例如,CLIP[18]是一种开创性的视觉-语言模型,它将变压器架构与视觉元素相结合,使其能够在大量的文本和图像数据集上进行训练。通过从一开始就整合视觉和语言知识,CLIP可以在多模态生成框架中充当图像编码器。另一个值得注意的例子是Stable Diffusion[19],这是一个多才多艺的文本到图像AI模型,以其适应性和易用性而受到赞誉。它采用变压器架构和潜在扩散技术来解码文本输入,并生成各种风格的图像,进一步展示了多模态AI的进步。随着2022年11月ChatGPT的发布,我们在2023年见证了商业文本到图像产品的出现,如Stable Diffusion[19]、Midjourney[20]、DALL-E 3[21]。这些工具使用户能够用简单的文本提示生成高分辨率和高质量的新图像,展示了AI在创意图像生成方面的潜力。然而,从文本到图像过渡到文本到视频由于视频的时间复杂性而具有挑战性。尽管工业界和学术界做出了许多努力,但大多数现有的视频生成工具,如Pika[22]和Gen-2[23],仅限于生成几秒钟的短视频片段。在这种背景下,Sora代表了一个重大突破,类似于ChatGPT在NLP领域的影响。Sora是第一个能够根据人类指令生成长达一分钟的视频的模型,标志着对生成式AI研究和开发产生深远影响的里程碑。为了便于轻松访问最新的视觉生成模型进展,最新的作品已被汇编并提供在附录和我们的GitHub中。

Others are asking
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
哪些AI可以支持对镜头的视觉理解
以下 AI 可以支持对镜头的视觉理解: 1. 通义千问的 Qwen2.5VL 模型:具有以下优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 2. OpenAI 的 GPT4:在 12 月发布的更新中正式上架了“视频理解”功能,可以和用户就便签内容进行讨论。 3. 基于豆包视觉理解模型实现的具有视频通话功能的应用:能够对摄像头传输的实时画面进行分析,精准理解画面中的关键信息,包括图表论文人物表情、动作细节、场景环境等。同时支持高清流畅的视频通话,实现和大模型面对面的即时交流体验。
2025-04-09
如何用AI 驱动的产品营销创新,从内容创作到视觉呈现的全方位变革?
以下是关于如何用 AI 驱动产品营销创新,从内容创作到视觉呈现的全方位变革的一些方法和案例: 一、内容创作方面 1. 利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况,以获取关键信息,为营销内容创作提供方向。 2. 借助 AI 文案工具撰写有说服力的产品描述和营销文案,提高转化率。 二、视觉呈现方面 1. 通过 AI 生成图像或素材,再结合平面合成及修正,确保符合品牌形象,精准表达营销活动主题,如淘宝天猫大促视觉的案例。 2. 对于需要定制化真人模特实景素材的主题活动,利用 AI 将策划、搭建、拍摄、设计融为一个闭环流程,完成页面所有素材的生产和输出,例如七夕主题活动页面。 3. 在 UI 设计场景中,采用 AI 能力快速定制多种用户需要的视觉效果,如通过 SD 中 controlnet 的有效控制生成指定范围内的 ICON、界面皮肤等内容。 三、在阿里巴巴营销中的应用 1. 关键词优化:利用 AI 分析和推荐高流量、高转化的关键词,优化产品标题和描述,提高搜索排名和可见度。 2. 产品页面设计:借助 AI 设计工具根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 3. 图像识别和优化:使用 AI 图像识别技术选择或生成高质量的产品图片,展示产品特点。 4. 价格策略:依靠 AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 5. 客户反馈分析:通过 AI 分析客户评价和反馈,优化产品和服务。 6. 个性化推荐:利用 AI 根据用户的购买历史和偏好提供个性化的产品推荐,增加销售额。 7. 聊天机器人:使用 AI 驱动的聊天机器人提供 24/7 的客户服务,解答疑问,提高客户满意度。 8. 营销活动分析:借助 AI 分析不同营销活动的效果,了解哪些活动更能吸引顾客并产生销售。 9. 库存管理:依靠 AI 帮助预测需求,优化库存管理,减少积压和缺货情况。 10. 支付和交易优化:利用 AI 分析不同的支付方式对交易成功率的影响,优化支付流程。 11. 社交媒体营销:通过 AI 在社交媒体上找到目标客户群体,进行精准营销提高品牌知名度。 12. 直播和视频营销:使用 AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。 四、大型视觉模型 Sora 的机遇 1. 对于学术界,OpenAI 推出 Sora 标志着战略转变,鼓励更广泛的 AI 社区深入探索文本到视频模型,利用扩散和变换器技术。以原生大小训练 Sora 的创新方法为学术界提供了灵感,强调使用未修改数据集的好处,开辟了创建更高级生成模型的新路径。 2. 对于行业,Sora 目前的能力预示着视频模拟技术进步的道路,突出了在物理和数字领域内增强现实感的潜力。公司可以利用 Sora 生产适应市场变化的广告视频,并创建定制化的营销内容,降低成本,增强吸引力和效果,彻底改变品牌与受众互动的方式。
2025-03-24
AGI三个字母分别代表什么
AGI 指通用人工智能(Artificial General Intelligence)。在相关讨论中,部分人认为大语言模型(LLM)具有 AGI 潜力,但也有人如 LeCun 表示反对。在公众传播层面,AIGC 指用 Stable Diffusion 或 Midjourney 生成图像内容,后来泛指用 AI 生成音乐、图像、视频等内容;LLM 指 NLP 领域的大语言模型,如 ChatGPT;GenAI 是生成式人工智能模型,国内官方政策文件使用这个词相对科学,涵盖了 LLM 和 AIGC。
2025-03-30
科学计算大模型的代表模型有哪些
科学计算大模型的代表模型主要有以下几种: 1. Encoderonly 模型:适用于自然语言理解任务,如分类和情感分析,最知名的代表是 BERT。 2. Encoderdecoder 模型:同时结合 Transformer 架构的 encoder 和 decoder 来理解和生成内容,代表模型如谷歌的 T5。 3. Decoderonly 模型:更擅长自然语言生成任务,如故事写作和博客生成,众多熟知的 AI 助手基本采用此结构,包括 ChatGPT。 大模型具有以下特点: 1. 预训练数据量大:往往来自互联网,包括论文、代码、公开网页等,先进的大模型通常用 TB 级别的数据进行预训练。 2. 参数众多:如 OpenAI 在 2020 年发布的 GPT3 就已达到 170B 的参数。 在数字化处理中,为让计算机理解 Token 之间的联系,需将 Token 表示成稠密矩阵向量,即 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。以 Transform 为代表的大模型采用自注意力(Selfattention)机制学习不同 token 之间的依赖关系,生成高质量 embedding。 大模型的“大”主要指用于表达 token 之间关系的参数多,如 GPT3 拥有 1750 亿参数。当神经元数量达到百亿、千亿级别时,会出现群体智能,即智能涌现,这在自然界如蚂蚁群体中有典型体现,人脑也由约 1000 亿个神经元构成复杂神经网络。
2025-03-20
以DeepSeek R1为代表的推理模型,与此前模型(如 ChatGPT-4、Claude 3.5 sonnet、豆包、通义等)的差异点主要在于
以 DeepSeek R1 为代表的推理模型与此前模型(如 ChatGPT4、Claude 3.5 sonnet、豆包、通义等)的差异点主要在于: 1. 技术路线:DeepSeek R1 与 OpenAI 现在最先进的模型 o1、o3 一样,属于基于强化学习 RL 的推理模型。 2. 思考方式:在回答用户问题前,R1 会先进行“自问自答”式的推理思考,模拟人类的深度思考,从用户初始问题出发,唤醒所需的推理逻辑与知识,进行多步推导,提升最终回答的质量。 3. 训练方式:在其他模型还在接受“填鸭式教育”时,DeepSeek R1 已率先进入“自学成才”的新阶段。 4. 模型制作:R1 是原生通过强化学习训练出的模型,而蒸馏模型是基于数据微调出来的,基础模型能力强,蒸馏微调模型能力也会强。此外,DeepSeek R1 还能反过来蒸馏数据微调其他模型,形成互相帮助的局面。 5. 与 Claude 3.7 Sonnet 相比,Claude 3.7 Sonnet 在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色,扩展思考模式在数学和科学领域带来显著提升,在某些方面与 DeepSeek R1 各有优劣。
2025-03-19
推理类模型,以deepseek为代表,与此前的聊天型ai,比如chatgpt3.5,有什么差异
推理类模型如 DeepSeek 与聊天型 AI 如 ChatGPT3.5 存在以下差异: 1. 内部机制:对于大语言模型,输入的话会被表示为高维时间序列,模型根据输入求解并表示为回答。在大模型内部,是根据“最大化效用”或“最小化损失”计算,其回答具有逻辑性,像有自己的思考。 2. 多模态能力:ChatGPT3.5 是纯语言模型,新一代 GPT 将是多模态模型,能把感官数据与思维时间序列一起作为状态,并装载在人形机器人中,不仅能对话,还能根据看到、听到的事进行判断,甚至想象画面。 3. 超越人类的可能性:有人假设人按最大化“快乐函数”行动,只要“效用函数”足够复杂,AI 可完全定义人,甚至超越人类。如在“短期快乐”与“长期快乐”的取舍上,人类难以找到最优点,而 AI 可通过硬件算力和强化学习算法实现,像 AlphaGo 击败世界冠军,在复杂任务上超越人类。 4. 应用领域:文字类的总结、润色、创意是大语言模型 AI 的舒适区,如从 ChatGPT3.5 问世到 ChatGPT4 提升,再到 Claude 3.5 sonnet 在文学创作领域取得成绩,只要有足够信息输入和合理提示词引导,文案编写可水到渠成。
2025-03-18
现在AI应用都有哪些代表性的工具,请用表格展示出来
|序号|已有产品|主题|使用技术|市场规模|一句话介绍|项目功能| |||||||| |81|下厨房口味调整功能|AI 菜谱口味调整工具|自然语言处理、数据分析|数亿美元|根据用户反馈调整菜谱口味|下厨房的口味调整功能可根据用户对菜谱的评价,利用 AI 分析后给出口味调整建议,如增加甜度、减少辣味等| |82|英语流利说纠错功能|AI 语言学习纠错平台|自然语言处理、机器学习|数十亿美元|帮助语言学习者纠正错误|英语流利说通过 AI 技术识别用户在语言学习中的发音、语法等错误,并提供纠正建议和练习| |83|豆瓣电影剧情分析工具|AI 电影剧情分析系统|数据分析、自然语言处理|数亿美元|分析电影剧情,提供深度解读|豆瓣电影的剧情分析工具利用 AI 对电影剧情进行分析,为用户提供剧情解析、主题探讨等内容| |84|腾讯文档分类功能|AI 办公文件分类系统|数据分析、机器学习|数亿美元|自动分类办公文件,方便管理|腾讯文档利用 AI 对用户上传的文件进行分类,如合同、报告、方案等,提高文件管理效率| |85|美丽修行定制方案功能|AI 美容护肤方案定制平台|图像识别、数据分析|数亿美元|根据用户肤质定制护肤方案|美丽修行根据用户上传的照片和肤质信息,利用 AI 定制个性化的护肤方案,包括产品推荐和使用顺序| |91|游戏内商城推荐功能|AI 游戏道具推荐系统|数据分析、机器学习|数亿美元|根据玩家需求推荐游戏道具|在一些游戏中,利用 AI 分析玩家的游戏风格和进度,为玩家推荐合适的游戏道具,如武器、装备等| |92|彩云天气分时预报|AI 天气预报分时服务|数据分析、机器学习|数亿美元|提供精准的分时天气预报|彩云天气利用 AI 提供每小时的天气预报,帮助用户更好地安排出行和活动| |93|医渡云病历分析系统|AI 医疗病历分析平台|数据分析、自然语言处理|数十亿美元|分析医疗病历,辅助诊断|医渡云利用 AI 分析医疗病历中的症状、检查结果等信息,为医生提供辅助诊断建议| |94|讯飞听见会议总结功能|AI 会议发言总结工具|自然语言处理、机器学习|数亿美元|自动总结会议发言内容|讯飞听见在会议中利用 AI 自动总结发言者的主要观点和重点内容,方便回顾和整理| |95|书法临摹软件|AI 书法作品临摹辅助工具|图像识别、数据分析|数亿美元|帮助书法爱好者进行临摹|书法临摹软件利用 AI 识别书法作品的笔画和结构,为用户提供临摹指导和评价| |7|AI 简历优化工具|超级简历优化助手|自然语言处理|数亿美元|帮助用户优化简历提高求职成功率|超级简历优化助手分析简历内容并提供优化建议| |8|酷家乐|AI 室内设计方案生成|图像生成、机器学习|数十亿美元|快速生成个性化室内设计方案|酷家乐允许用户上传户型图,通过 AI 生成多种设计方案| |9|Amper Music|AI 音乐创作辅助工具|机器学习、音频处理|数亿美元|协助音乐创作者进行创作|Amper Music 根据用户需求生成旋律和编曲| |10|松果倾诉智能助手|AI 情感咨询助手|自然语言处理、情感分析|数亿美元|提供情感支持和建议|松果倾诉智能助手通过文字或语音交流为用户提供情感咨询| |11|小佩宠物智能设备|AI 宠物健康监测设备|传感器数据处理、机器学习|数十亿美元|实时监测宠物健康状况|小佩宠物智能设备可监测宠物活动、饮食等,提供健康预警| |12|马蜂窝智能行程规划|AI 旅游行程规划器|数据分析、自然语言处理|数十亿美元|根据用户需求生成个性化旅游行程|马蜂窝智能行程规划根据目的地、时间等因素为用户定制旅游路线|
2025-03-02
案例:借助人工智能技术的诈骗 一、案例材料 1.背景资料 (1)近期全国范围内出现了一种新型电信诈骗——AI换脸诈骗,该诈骗利用AI人工智能,通过“换脸”和“拟声”技术模仿受害人的朋友或亲戚的声音和外貌,以此骗取受害者的信任,进行网络诈骗,近日包头警方就根据一起典型案例,向大家发出了防范AI换脸诈骗的警示。 财联社5月22日讯,据平安包头微信公众号消息,包头警方发布了一起利用人工智能(AI)实施电信诈骗的典型案例,一家福州市科技公司的法人代表郭先生竟在短短10分钟内被骗走了430万元人民币。
以下是关于 AI 的相关内容: 律师如何写好提示词用好 AI: 对于不具备理工科背景的文科生,可将 AI 视为黑箱,只需知道其能模仿人类思维理解和输出自然语言。AI 就像似人而非人的存在,与传统道教的驱神役鬼拘灵遣将有相似之处。提示词应是相对完善的“谈话方案”,成果在与 AI 的对话中产生,要接受其存在的“不稳定性”,并在对话中限缩自己思维的模糊地带。 AI 的应用场景: 医疗保健:包括医学影像分析、药物研发、个性化医疗、机器人辅助手术等。 金融服务:涵盖风控和反欺诈、信用评估、投资分析、客户服务等。 零售和电子商务:有产品推荐、搜索和个性化、动态定价、聊天机器人等。 制造业:包含预测性维护、质量控制、供应链管理、机器人自动化等。 交通运输:(未具体阐述)
2024-12-25