Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

2024 年值得关注的中文大模型全景图

Answer

2024 年,AI 大模型在生产和生活中落地速度迅猛,被称为国内大模型落地元年。以下是一些值得关注的情况:

  • 国内大模型行业形成了以百度、阿里、字节等科技大厂和创业“AI 六小虎”为主要玩家的竞争格局。
  • 2024 年 1 至 11 月,国内大模型中标项目数量和金额大幅增长,中标项目共 728 个,是 2023 年全年的 3.6 倍;中标金额 17.1 亿元,是 2023 年全年的 2.6 倍。中标项目数前五的行业分别是运营商、能源、教育、政务、金融。
    • 厂商方面,百度以 40 个中标项目数、2.74 亿元的中标金额排名所有厂商之首,科大讯飞居第二。
    • 在金融行业,百度以 14 个中标数量、3734.4 万元中标金额排名第一;科大讯飞居第二。
  • 在智能终端行业,超半数手机厂商都在使用文心大模型,包括三星、荣耀、vivo、OPPO、小米等主流手机品牌;上汽大众、吉利汽车、蔚来汽车、长安汽车等十余家车企已接入百度文心大模型。
    • 百度表现突出,截至 11 月,其文心大模型日均调用量超过 15 亿次,千帆平台帮助客户精调了 3.3 万个模型、开发了 77 万个企业应用。今年三季度财报披露,百度智能云营收达 49 亿元,同比增长 11%。

2024 年 9 月 AI 行业大事记:

  • 9 月 12 日:李继刚再现神级 Prompt,玩法持续翻新;Mistral 发布首个多模态模型 Pixtral 12B。
  • 9 月 13 日:商汤 Vimi 相机开放微博小程序;元象开源中国最大 MoE 大模型 XVERSE-MoE-A36B;OpenAI 发布 o1 模型。
  • 9 月 14 日:人工智能生成合成内容标识办法(征求意见稿);Jina AI 发布 Reader-LM、Jina Embeddings V3。
  • 9 月 18 日:DeepSeek 发文庆祝登上 LMSYS 榜单国产第一,几小时后 Qwen 新模型表示不服。
  • 9 月 19 日:云栖大会;通义万相 AI 生视频上线;快手可灵 1.5 模型新增运动笔刷能力。
  • 9 月 20 日:腾讯元器智能体对外发布;秘塔科技产品经理 JD 走红 AI 圈;阶跃跃问接入 Step-2 万亿参数 MoE 语言大模型。
  • 9 月 21 日:大模型测试基准研究组正式成立。
  • 9 月 23 日:钉钉 365 会员上线。
  • 9 月 24 日:讯飞星火 API 全新升级;豆包大模型全系列发布&更新。
  • 9 月 25 日:Vidu API 正式开放,加速企业级视频创作;OpenAI 发布高级语音功能;西湖心辰开源 Westlake-Omni。

大模型进入产业落地后,除了大模型本身能力质量要过硬外,落地应用所需要的全栈技术能力、工程化配套工具等对落地效果有直接影响。企业想要真正将大模型在自身场景落地,需要具备构建算力、数据治理、模型训练、场景落实、应用搭建、持续运营、安全合规等整套能力,大模型的竞争正在加速成为体系化之战。

Content generated by AI large model, please carefully verify (powered by aily)

References

国内大模型落地“狂飙”一年,各家厂商成绩如何?

Gartner《2025年十大战略技术趋势》中预测,到2028年至少有15%的日常工作决策将由代理型AI(AI智能体)自主做出。2024年,AI大模型在生产和生活中正以“狂飙猛进“的速度落地。“百模大战”过后,国内大模型行业基本跑出了以百度、阿里、字节等科技大厂和创业“AI六小虎”为主要玩家的竞争格局。2024年被称为国内大模型落地元年,经过一年时间的赛跑,各家大模型在各行各业的落地成绩究竟如何?2024年国内大模型项目增3.6倍,百度中标数量和金额双第一各厂商公布的大模型调用数据固然是一个成绩参考,但是让企业客户为大模型买单掏出的真金白银数量无疑是更为直观的成绩。根据云头条统计公开可查的大模型招投标项目数据,2024年国内大模型中标项目数量和金额都呈现大幅度增长。2024年1至11月,大模型中标项目共728个,是2023年全年的3.6倍;中标金额17.1亿元,是2023年全年的2.6倍。大模型中标项目数前五的行业分别是运营商、能源、教育、政务、金融。厂商方面,百度以40个中标项目数、2.74亿元的中标金额排名所有厂商之首,科大讯飞居第二。再看各细分行业,在金融行业,根据2024年1-11月份金融机构发起的大模型相关采购中标项目来看,百度以14个中标数量、3734.4万元中标金额排名第一;科大讯飞居第二。

国内大模型落地“狂飙”一年,各家厂商成绩如何?

在智能终端行业,根据媒体报道,中国超半数手机厂商都在使用文心大模型,包括三星、荣耀、vivo、OPPO、小米等主流手机品牌;上汽大众、吉利汽车、蔚来汽车、长安汽车等十余家车企已接入百度文心大模型。整体来看,在主流大模型厂商中,百度表现突出,拿下最关键的中标项目数量、中标金额两项第一。根据百度披露的数据,截至11月,其文心大模型日均调用量超过15亿次,千帆平台帮助客户精调了3.3万个模型、开发了77万个企业应用。今年三季度财报披露,百度智能云营收达49亿元,同比增长11%,百度智能云的增长主要由互联网、教育、金融等行业对模型训练和推理的高需求带动。这与前文所述百度大模型中标行业相一致。2024年,百度在大模型落地交出的成绩单可谓亮眼。大模型时代,AI基础设施的正确范式事实上,大模型进入产业落地后,除了大模型本身能力质量要过硬外,落地应用所需要的全栈技术能力、工程化配套工具等等对落地效果有直接影响。企业想要真正将大模型在自身场景落地,需要具备构建算力、数据治理、模型训练、场景落实、应用搭建、持续运营、安全合规等整套能力。这也就意味着,在大模型落地赋能企业智能化时,能力比拼从单项变为全能比拼(大模型自身、工程能力、工具平台等)。大模型的竞争,正在加速成为体系化之战。

2024年9月盘点:AI 行业大事记

9月12日:李继刚再现神级Prompt,玩法持续翻新9月12日:Mistral●发布首个多模态模型Pixtral 12B9月13日:商汤●Vimi相机开放微博小程序9月13日:元象●开源中国最大MoE大模型XVERSE-MoE-A36B9月13日:OpenAI发布o1模型,传说中的草莓来了9月14日:人工智能生成合成内容标识办法(征求意见稿)9月14日:Jina AI发布Reader-LM9月14日:Jina AI发布Jina Embeddings V39月18日:DeepSeek发文庆祝登上LMSYS榜单国产第一,几小时后Qwen新模型表示不服9月19日:云栖大会9月19日:通义万相●AI生视频上线9月19日:快手可灵1.5模型●新增运动笔刷能力9月20日:腾讯元器智能体对外发布9月20日:秘塔科技产品经理JD走红AI圈9月20日:阶跃●跃问接入Step-2万亿参数MoE语言大模型9月21日:大模型测试基准研究组正式成立,国家队来了9月23日:钉钉●365会员上线9月24日:讯飞星火API全新升级9月24日:豆包大模型全系列发布&更新9月25日:Vidu API正式开放,加速企业级视频创作9月25日:OpenAI发布高级语音功能9月25日:西湖心辰开源Westlake-Omni

Others are asking
2024年AI公司全景图
以下是 2024 年 AI 公司的相关信息: AI 产业的产业链结构大致分为上游的基础设施层(数据与算力)、中游的技术层(模型与算法)、下游的应用层(应用与分发)。但未找到一张满意的展示上中下游重点企业(或产品)的图,若您对图中不了解的公司/平台(或产品),建议搜索了解。 2024 年美国融资金额超过 1 亿美元的 AI 公司(截止 2024.10.15): Zephyr AI:20240313 融资 1.11 亿美元,A 轮,主营 AI 药物发现和精准医疗。 Together AI:20240313 融资 1.06 亿美元,A 轮,主营 AI 基础设施和开源生成。 Glean:20240227 融资 2.03 亿美元,D 轮,主营 AI 驱动企业搜索。 Figure:20240224 融资 6.75 亿美元,B 轮,主营 AI 机器人。 Abridge:20240223 融资 1.5 亿美元,C 轮,主营 AI 医疗对话转录。 Recogni:20240220 融资 1.02 亿美元,C 轮,主营 AI 接口解决方案。 2024 年的一些 AI 发展趋势: AI 将引领“智能即服务”的新服务模式,重塑工作和生活,重新赋能芯片和云计算行业,GPU 需求预计持续增长。 企业软件、AI 驱动的金融服务以及 AI 健康技术成为吸引投资的主要领域,机器人行业投资额超过企业软件。 科技巨头通过资本控制 AI 模型公司的趋势明显。 企业竞争策略分化,大模型争霸,OpenAI、Gemini、Anthropic、LLama 以及来自法国的 Mistral 是市场上备受瞩目的公司。
2024-11-20
中国AIGC应用全景图谱
中国 AIGC 应用全景图谱 AIGC(AI Generated Content)是指利用人工智能技术生成的内容,是继用户生成内容(UGC)、专业生产内容(PGC)之后的新型内容生产方式。作为一种强大的技术,生成式 AI 能够赋能诸多领域,但也存在多重潜在的合规风险。目前,我国对 AIGC 的监管框架由《网络安全法》《数据安全法》及《个人信息保护法》构成,并与《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》《科技伦理审查办法(试行)》等形成了共同监管的形势。 AIGC 主要分为语言文本生成、图像生成和音视频生成。语言文本生成利用马尔科夫链、RNN、LSTMs 和 Transformer 等模型生成文本,如 GPT4 和 GeminiUltra。图像生成依赖于 GANs、VAEs 和 Stable Diffusion 等技术,应用于数据增强和艺术创作,代表项目有 Stable Diffusion 和 StyleGAN 2。音视频生成利用扩散模型、GANs 和 Video Diffusion 等,广泛应用于娱乐和语音生成,代表项目有 Sora 和 WaveNet。此外,AIGC 还可应用于音乐生成、游戏开发和医疗保健等领域,展现出广泛的应用前景。 AIGC 在 CRM(客户关系管理)领域有着广阔的应用前景,主要包括以下几个方面: 1. 个性化营销内容创作:AIGC 可以根据客户的个人信息、购买历史、偏好等数据,生成高度个性化且富有创意的营销文案、视觉内容等,替代人工撰写,提高营销效率和转化率。 2. 客户服务对话系统:基于 AIGC 的对话模型,可以开发智能客服系统,通过自然语言交互的方式解答客户的咨询、投诉等,缓解人工客服的压力。 3. 产品推荐引擎:借助 AIGC 生成丰富的产品描述、视觉展示等内容,相结合推荐算法,为客户推荐更贴合需求的产品,提升销售业绩。 4. CRM 数据分析报告生成:AIGC 可以自动生成期望的数据分析报告内容,包括文字、图表、视频演示等形式,加快分析报告的生产流程。 5. 智能翻译和本地化:AIGC 技术能够提供高质量的多语种翻译及本地化服务,帮助企业打造精准的全球化营销内容。 6. 虚拟数字人和营销视频内容生成:AIGC 可以快速生成虚拟数字人形象、场景背景和营销视频内容,降低视频制作成本。 7. 客户反馈分析:AIGC 可以高效分析海量的客户反馈文本和多媒体信息,挖掘客户需求和潜在痛点。 总之,AIGC 在 CRM 领域的应用可以帮助企业提高客户满意度、提升销售业绩、降低运营成本,从而实现更好的客户关系管理。你可以在知识库的研究报告目录下找到。
2024-05-27
2024 年中国人工智能+产业规模
目前关于 2024 年中国人工智能+产业规模的相关信息如下: 国家统计局数据显示,2022 年全国研究与试验发展(R&D)经费投入总量首次超过 3 万亿元,达到 30782.9 亿元,比上年增加 2826.6 亿元,增长 10.1%,表明国家对科技创新和算力设施的重视和持续投入。我国算力设施产业链规模巨大,已达到万亿元级别。2022 年我国算力核心产业规模达到 1.8 万亿元,预计到 2023 年,中国算力产业规模将超过 3 万亿元。 在企业数量方面,截至 2024 年 3 月,全国算力存量企业共有 75,343 家。其中,广东省、北京市和江苏省的企业数量位居前三,分别有 10,315 家、7,167 家和 6,728 家。此外,人工智能企业数量也超过 4400 家。 德勤的报告指出,中国 AI 产业快速发展,得益于政策支持、经济增长和技术创新。成长型 AI 企业作为产业创新的重要力量,数量占比高达九成,活跃于各行业领域。预计到 2025 年,中国人工智能核心产业规模将突破 5000 亿元。 在影视行业,若假设 2027 年 AI 影视市场可以获得国内总市场份额的 10%,则国内 AI 影视总市场规模预计将达约 380 亿元以上;若假设 2030 年可以获得 25%以上市场份额,则国内 AI 影视总市场规模将达千亿级别。 营销行业或成生成式 AI 最早实现商业化落地的行业之一,未来,AI 技术还将持续推动营销行业的深刻变革。
2025-02-20
明略科技:2024年中国AI Agent行业研究
以下是关于 2024 年中国 AI Agent 行业的相关研究报告: 2024 年 9 月: 《》 《》 2024 年 8 月: 《》深入分析了 AI Agent 的市场定义、发展阶段、核心组件及其在企业用户场景中的应用。 《》指出企业实施 AI Agent 的主要目标是降低运营成本,尤其是在知识库管理、数据分析、营销与客户服务等领域。 2024 年 5 月: 《》提到 AI Agent 市场处于早期阶段,其商业价值在于提升工作均值、实现行业知识库构建、改变工作流程及生产关系。未来,AI Agent 将作为数字生产力,通过与工作流的结合,成为企业知识资产积累与复用的关键角色,推动技术革命。
2025-02-10
告诉我最新的国际ai资讯(比如从2024年有什么ai被发明了,国际上一共有什么大的ai公司,中国的ai发展的怎么样了(deepseek怎么样))
以下是为您整理的最新国际 AI 资讯: 2024 年 2 月 5 日:百度智能云成功点亮昆仑芯三代万卡集群,这是国内首个正式点亮的自研万卡集群。 在 Lex Fridman 的播客中,Dylan Patel 和 Nathan Lambert 深入探讨了中国的 DeepSeek AI 模型,特别是 DeepSeekV3 和 DeepSeekR1。Nathan 强调 DeepSeek 是最开放的模型之一,采用 MIT 许可,鼓励商业用途,推动行业走向开源。 2025 年 AI 语音助手研究显示,语音技术是 AI 应用的关键,企业和用户都将受益。2024 年将是语音助手快速发展的时期,技术不断升级,市场竞争加剧,涌现出多种创业公司。未来,AI 语音将成为服务的“万能钥匙”,应用场景广泛,从医疗到教育,推动行业变革与创新。 2024 年 1 月 17 日:随着预训练技术遭遇瓶颈,GPT5 迟迟未能问世,从业者开始从不同角度寻找突破。以 o1 为标志,大模型正式迈入“PostTraining”时代;开源发展迅猛,Llama 3.1 首次击败闭源模型;中国本土大模型 DeepSeek V3,在 GPT4o 发布仅 7 个月后,用 1/10 算力实现了几乎同等水平。同时,大模型的日渐成熟也让产业重心从基础模型转向应用落地。AI 在编程领域爆发,“数字员工”崛起。 李飞飞在访谈中探讨了 AI Agent 的发展及其未来。她强调 AI Agent 应作为工具和赋能者,而非主导者,确保人们的自主性。李飞飞回顾了 ImageNet 的创立背景,并提到正在推动的“空间智能”概念,旨在理解和融合物理与数字三维世界。她认为,未来这两者的界限将逐渐模糊,从而带来更大变革。
2025-02-08
2024 AI工具排行榜
以下是 2024 年部分 AI 工具的相关信息: 开发者工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Langchain,其 3 月 PV 为 356 万,单 PV 价值为 56.18 美元。 赛道方面,天花板潜力 TAM 为 120 亿美元,总体趋势平稳增长,月平均增速为 82 万 PV/月,原生产品占比高。 竞争方面,Top1 占 19%,Top3 占 54%,马太效应弱,网络效应强,大厂已入局,技术门槛中。 教育工具: 23 年 12 月至 24 年 3 月的访问量排行榜中,非大厂的 Top1 公司是 Quizlet,其 3 月 PV 为 1.3 亿。 赛道方面,天花板潜力 TAM 约为 30 亿,总体趋势快速增长,月平均增速为 1793 万 PV/月,原生产品占比低。 竞争方面,Top1 占 45%,Top3 占 76%,马太效应弱,网络效应弱,大厂未入局,技术门槛中。 此外,在展望 2025 时,AI 行业的创新机会方面,2024 年 9 月 OpenAI 发布了新一代语言模型 o1,业界推测其采用了全新的训练与推理方案,结合强化学习技术,显著增强了推理能力,可能借鉴了下围棋的 AlphaGo Zero 的技术思路。
2025-01-26
2024年视频换脸技术
2024 年视频换脸技术面临一些挑战和发展趋势: 挑战方面: 可控性和一致性存在挑战,如人脸转动中保持观感不变形、多个生成片段保持人物一致性、遵循生成指令等,目前视频生成的体感仍需改进,需要底层模型的进步。 成本较高,生成一段 5 秒视频的成本最低约为 1 元人民币,限制了 C 端玩法和大规模应用。 发展趋势: 原生多模态成为 AI 架构的主流选择,从 OpenAI 的 GPT4V 到 Anthropic 的 Claude3V 和 xAI 的 Grok1.5V 等,行业正从简单的模态叠加向真正的多模态融合迈进。原生多模态模型采用统一的编码器解码器架构,在预训练阶段完成多模态信息的深度融合,提升了模型的理解能力,实现了模态间的无缝转换和互补增强,能够处理更复杂的任务。 自 2023 年末开始,Runway、Pika、Meta、Google 等不断推出视频生成/编辑工具,2024 年是 AI 视频技术逐渐成熟并开始商用的一年,下半年或 2025 年可能会看到 AI3D 技术的突破。抖音的成功证明音频、视频加入泛社交/娱乐产品会带来质的飞跃,AI 陪聊赛道中视频、音频技术的加入也将带来内容生产和社交方式的质变。
2025-01-24
2024大模型典型应用案例集
以下是 2024 大模型的一些典型应用案例及相关信息: 《2024 大模型典型示范应用案例集》汇集了 97 个优秀案例,展示了大模型技术在教育、医疗、金融、政务等多个行业和领域的应用。案例由阿里云、百度、华为等领先企业实施,上海成为应用落地的热点地区,大中型企业是主要试验场。AI 智能体和知识库成为提升大模型落地实效的关键手段。 在智能终端行业,中国超半数手机厂商都在使用文心大模型,包括三星、荣耀、vivo、OPPO、小米等主流手机品牌;上汽大众、吉利汽车、蔚来汽车、长安汽车等十余家车企已接入百度文心大模型。 整体来看,在主流大模型厂商中,百度表现突出,拿下最关键的中标项目数量、中标金额两项第一。截至 11 月,其文心大模型日均调用量超过 15 亿次,千帆平台帮助客户精调了 3.3 万个模型、开发了 77 万个企业应用。今年三季度财报披露,百度智能云营收达 49 亿元,同比增长 11%,其增长主要由互联网、教育、金融等行业对模型训练和推理的高需求带动。 企业想要真正将大模型在自身场景落地,需要具备构建算力、数据治理、模型训练、场景落实、应用搭建、持续运营、安全合规等整套能力。 相关报告: 《信达证券:AI 行业设计领域专题报告:Adobe AI 功能覆盖全面,Canva、美图等力争上游》 《中国信通院:大模型基准测试体系研究报告(2024 年)》 《埃森哲:人工智能行业:2024 在生成式人工智能时代重塑工作、劳动力和员工》 此外,还有一些相关活动,如: 2024 年是国内大模型技术加速落地的关键年份,各大厂商如百度、阿里、字节等在 AI 大模型领域展开激烈竞争。百度凭借 40 个中标项目和 2.74 亿元中标金额在行业中处于领先地位。尤其在金融、智能终端等行业,百度文心大模型的应用广泛,表现亮眼。 🏮「非遗贺春」魔多蛇年春节 AI 模型创作大赛,大赛时间 2024 年 12 月 24 日2025 年 1 月 15 日。大赛奖池【¥12000】现金奖励+官方高含金量荣誉证书+会员与算力激励+流量激励。双赛道同时开启,赛道一【春节】+赛道二【爱非遗 AI 传承】。本次活动由浙江省非遗保护中心(浙江省非遗馆)指导×浙江省非遗保护基金会主办×魔多 AI 联合承办,由提供社区传播支持。
2025-01-16
Ai工具英文不熟悉,怎么提升自己,快速掌握,可替代的中文ai工具推荐
如果您对 AI 工具的英文不熟悉,想要快速掌握并寻找可替代的中文 AI 工具,以下是一些建议和推荐: 提升英语能力以更好地掌握 AI 工具: 多进行英语阅读,包括 AI 相关的文章和文档。 参加英语培训课程或学习在线教程。 中文 AI 工具推荐: 秘塔写作猫(https://xiezuocat.com/):是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风,还能实时同步翻译。支持全文改写,一键修改,实时纠错并给出修改建议,智能分析文章属性并打分。 笔灵 AI 写作(https://ibiling.cn/):是智能写作助手,能应对多种写作需求,支持一键改写/续写/扩写,智能锤炼打磨文字。 腾讯 Effidit 写作(https://effidit.qq.com/):由腾讯 AI Lab 开发的创作助手,能提升写作效率和创作体验。 此外,使用 AI 学习一门外语可以通过以下方法和工具: 方法: 利用语言学习应用,根据个性化体验和进度调整练习内容。 借助 AI 对话助手模拟对话练习,提高交流能力。 工具: 语言学习应用: Duolingo:使用 AI 个性化学习体验,提供词汇、语法、听力和口语练习。下载应用,选择语言,按课程指引学习。 Babbel:结合 AI 技术提供个性化课程和练习,注重实际交流技能。注册账户,选择课程,按学习计划学习。 Rosetta Stone:使用动态沉浸法,通过 AI 分析进度提供练习和反馈。注册并选择语言,使用多种练习模式学习。 AI 对话助手: ChatGPT:可模拟对话练习,询问语法、词汇等问题,模拟交流场景。在聊天界面选择目标语言进行对话。 Google Assistant:支持多种语言,可进行日常对话和词汇学习。设置目标语言,通过语音或文本输入互动。 另外,Trae Win+Mac 版已全量上线,标配 Claude3.5sonnet 模型免费不限量,编辑器所有功能原生支持中文,是一款对中文用户友好的 AI 编程工具。
2025-02-19
可以把图片用很精确的中文描述出来的AI
以下是关于图片描述和文生图提示词的相关内容: 利用 GPT 识图功能对图片进行细致描述: 对于一张包含中国小男孩和年轻男子的照片,小男孩站在年轻男子右侧,面带灿烂微笑,露出整齐乳牙,黑色短发蓬松且有微卷刘海,大眼睛充满好奇,身着蓝色衬衫和白色针织背心,干净整洁。年轻男子站在左侧,弯腰与小男孩同高,面带温和笑容,眼神充满喜爱,黑色头发梳得整齐,发尾微卷,五官分明,浓眉大眼,高挺鼻梁,薄唇微弯,身着正式黑色西装、白衬衫和黑领结,帅气迷人。两人并肩站立,男子右手轻放小男孩肩上,小男孩左手搭在男子手臂上,姿态和表情传递出深厚的情感与相互支持,场景充满温暖和谐。 对于一张成年男性的人物照片,其年龄约 20 至 30 岁,头发黑亮整齐梳向后方,发尾微卷,肤色白皙,面部线条分明,五官端正,浓眉大眼,鼻梁高挺,嘴唇薄而有弧度,表情略显严肃但英俊,下巴线条明显,脸部轮廓立体,身着正式黑色西装、内搭白色衬衫并佩戴黑色领结,左手握话筒,似在参加正式场合或演讲,背景简约浅色,突出人物主体,展现出自信专业气质,具有典型亚洲男性特征。 在 Stable Diffusion 中文生图时的提示词: 避免使用过大的数值(如 1920x1080),以免构图奇怪。若想要高清图,可同时点选高清修复来放大图像倍率,记住高宽比主要控制画面比例。 调整好参数生成图片后,若质感欠佳,可使用标准化提示词,如“,绘图,画笔”,使画面更趋近于固定标准。
2025-02-19
有哪些免费的文生图中文软件
以下是一些免费的文生图中文软件: 1. 豆包 App 支持文生图中文文字生成。 2. Stability AI 推出的基于 Discord 的媒体生成和编辑工具可用于文生图,您可以通过以下步骤使用: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示您没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。输入/dream 提示词,这部分和 MJ 类似,可选参数有五类,包括提示词(必填项)、负面提示词(选填项)、种子值(选填项)、长宽比(选填项)、模型选择(选填项)、张数(选填项)。完成后选择其中一张。 3. 您还可以参考以下教程: SD 做中文文字生成的教程: 找到一款喜欢的字体,写上主题例如“端午”。 打开 SD,选择文生图,输入关键词咒语。 打开 Controlnet,启用 lineart 和 canny 固定字体,如果希望有景深效果,也可以打开 depth(增加阴影和质感)。 打开高清修复,分辨率联系 1024 以上,步数:29 60 。 直接生成。这里可以举一反三,选择一些水果模型,珠宝模型,毛毡等等快来试一试吧,附免费参数。
2025-02-16
免费的中文软件 文生图
以下为免费的中文文生图软件 Stable Diffusion 的相关信息: 公司介绍:相比较于 DALLE 等大模型,Stable Diffusion 让用户使用消费级的显卡便能够迅速实现文生图。它完全免费开源,所有代码均在 GitHub 上公开,大家可以拷贝使用。其第一个版本训练耗资 60 万美元,资金支持来自成立于 2020 年的 Stability AI 公司,创始人兼 CEO 是 Emad Mostaque。 文生图使用: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。 输入/dream 提示词,这部分和 MJ 类似。 可选参数有五类: prompt(提示词):正常文字输入,必填项。 negative_prompt(负面提示词):填写负面提示词,选填项。 seed(种子值):可以自己填,选填项。 aspect(长宽比):选填项。 model(模型选择):SD3,Core 两种可选,选填项。 Images(张数):1 4 张,选填项。 教程示例: 作者: 作者 步骤: 1. 找到一款喜欢的字体,写上主题例如“端午”。 2. 打开 SD,选择文生图,输入关键词咒语。 3. 打开 Controlnet,启用 lineart 和 canny 固定字体,如果希望有景深效果,也可以打开 depth(增加阴影和质感)。 4. 打开高清修复,分辨率联系 1024 以上,步数:29 60 。 5. 直接生成就搞定啦。这里可以举一反三,选择一些水果模型,珠宝模型,毛毡等等快来试一试吧。 6. 附免费参数: Checkpoint:Chilloutmix Controlnet:lineart + canny + depth 正向咒语:watermelon,Art fonts,masterpiece,best quality,Smile,Lensoriented 反向咒语:NSFW,Cleavage,Pubic Hair,Nudity,Naked,Au naturel,Watermark,Text,censored,deformed,bad anatomy,disfigured,poorly drawn face,mutated,extra limb,ugly,poorly drawn hands,missing limb,floating limbs,disconnected limbs,disconnected head,malformed hands,long neck,mutated hands and fingers,bad hands,missing fingers,cropped,worst quality,low quality,mutation,poorly drawn,huge calf,bad hands,fused hand,missing hand,disappearing arms,disappearing thigh,disappearing calf,disappearing legs,missing fingers,fused fingers,abnormal eye proportion,Abnormal hands
2025-02-16
中文语音克隆比较强的有哪些
以下是一些中文语音克隆能力较强的产品: XiaoHu.AI:通过 250,000 小时的中英双语数据训练,仅需 15 秒的声音即可完美克隆,包括音色和情感。基于 LLaMA 模型,支持从文本生成语音,或基于语音提示生成目标语音(保留情感特征)。参数规模有 Llasa1B(轻量级,适合资源受限硬件部署,链接:https://huggingface.co/HKUSTAudio/Llasa1B )和 Llasa3B(更高性能,提供更复杂的语音生成,链接:https://huggingface.co/HKUSTAudio/Llasa3B )。详细介绍:https://www.xiaohu.ai/c/a066c4/llasattsllama3233827b03e5f44a989bf29c06d43d11ce 。 开源产品: GPTSoVITS:https://github.com/RVCBoss/GPTSoVITS ,对中、英、日语言支持良好,需要 10 分钟左右干素材,瞬时 clone 功能未开放。 OpenVoice:https://github.com/myshellai/OpenVoice ,对中文支持较好,主打瞬时 clone,发展势头良好,一个月前测试时中文声音 clone 有英语味道。 商业产品: ElevenLab:https://elevenlabs.io ,支持最多语言种类,支持瞬时 clone,综合效果最好。 Reecho:https://reecho.ai ,中国团队,支持长音频和瞬时声音 clone,据说与火山引擎的声音 clone 技术同源。 自得语音:https://zideai.com ,中国团队,支持瞬时声音 clone 和声音定制,尚未测试。
2025-02-11
有没有让中文视频音频变成英文的
以下是将中文视频音频变成英文的方法: 1. 先将中文台词通过谷歌翻译成英文,然后找专业人士进行英文字幕校对与台词润色,形成配音稿。 2. 可以使用 11labs(官网:https://elevenlabs.io/)进行对白制作,其英文效果较好,但存在声音没有情绪和情感的问题。无法使用语速、情绪调节等控件,只能通过标点符号去改变语音效果,如使用逗号、句号、省略号、感叹号等,有时会叠加不同标点符号来试语音效果。同一句台词可能需要生成十几二十段音频,才能找到合适自然的声音。 3. 国内可以使用出门问问的魔音工坊,它可以使用情绪调节控件。 4. 进行剪辑,对于 13 分钟的短片,剪映比较方便;更长篇幅或追求更好效果,可能需要使用 PR/FCP/达芬奇等传统剪辑软件。
2025-02-11
怎样操作来源模型
以下是关于操作来源模型的相关内容: 对于某些模型,如 Llama3.1 8B Instruct,操作方式如下: 1. 选择自定义提示词(也可选择预定义的话题,即黑色按钮,黑色按钮会有新手使用指引)。然后左边会出现熟悉的 chat 界面。 2. 输入对话内容,等待左右两边的内容生成。若右边的分析未刷新,在相关按钮间切换。 3. Activation Mode 可获得整段的推理判断;Attribution Mode 需选中一个 token,它会分析对应的最大关联内容。 对于 ComfyUI 玩 SDXL 的模型,操作要点包括: 1. 添加噪波:disable,运行后操作:fixed,步数:30,开始降噪步数:20,结束降噪步数:30,返回噪波:disable。 2. 若将 refiner 的模型连上提示词导致第一个 base 模型的链接断开,可通过加入新节点(右键点击【新建节点】【实用工具】【Primitive 元节点】),在文本节点上单击右键选择【转换文本为输入】,将元节点与文本节点相连接,复制出正负提示词节点分别给 base 模型和 refiner 模型,再将 base 模型的一套输出给第一个采样器节点,refiner 模型的一套输出给第二个采样器节点,使两个模型同时起作用。 对于 Tusiart 模型: 1. 首页包括模型、帖子、排行榜,可查看大手子炼成的模型、图片,不同模型有 checkpoint 和 lora 等标签,还有 XL 标签属于 SDXL 新模型,点击可看模型详细信息及返图区。 2. 基础模型(checkpoint)是生图必需的,任何生图操作必须选定,lora 是低阶自适应模型,可有可无,但对细节控制有价值。 3. ControlNet 可控制图片中特定图像,VAE 类似于滤镜可调整生图饱和度,选择 840000 即可。 4. Prompt 提示词是想要 AI 生成的内容,负向提示词 Negative Prompt 是想要 AI 避免产生的内容。
2025-02-21
不同ai模型的应用场景
以下是不同 AI 模型的应用场景: 基于开源模型: Civitai、海艺 AI、liblib 等为主流创作社区,提供平台让用户利用 AI 技术进行图像创作和分享,用户无需深入了解技术细节即可创作出较高质量的作品。 基于闭源模型: OpenAI 的 DALLE 系列: 发展历史:2021 年初发布 DALLE,2022 年推出 DALLE 2,2023 年发布 DALLE 3,不断提升图像质量、分辨率、准确性和创造性。 模型特点:基于变换器架构,采用稀疏注意力机制,DALLE 2 引入 CLIP 模型提高文本理解能力,DALLE 3 优化细节处理和创意表现。 落地场景:2C 方面可控性强于 Midjourney,但复杂场景和细节处理能力不如 Midjourney;2B 方面与 Midjourney 场景类似。 商业化现状:通过提供 API 服务,使企业和开发者能集成到应用和服务中,采取分层访问和定价策略。 伦理和合规性:加强对生成内容的审查,确保符合伦理和法律标准。 大模型: 文本生成和内容创作:撰写文章、生成新闻报道、创作诗歌和故事等。 聊天机器人和虚拟助手:提供客户服务、日常任务提醒和信息咨询等服务。 编程和代码辅助:用于代码自动补全、bug 修复和代码解释。 翻译和跨语言通信:促进不同语言背景用户之间的沟通和信息共享。 情感分析和意见挖掘:为市场研究和产品改进提供数据支持。 教育和学习辅助:创建个性化学习材料、自动回答学生问题和提供语言学习支持。 图像和视频生成:如 DALLE 等模型可根据文本描述生成相应图像,未来可能扩展到视频内容生成。 游戏开发和互动体验:创建游戏中的角色对话、故事情节生成和增强玩家沉浸式体验。 医疗和健康咨询:理解和回答医疗相关问题,提供初步健康建议和医疗信息查询服务。 法律和合规咨询:帮助解读法律文件,提供合规建议,降低法律服务门槛。 这些只是部分应用场景,随着技术进步和模型优化,AI 模型在未来可能会拓展到更多领域和场景。同时,也需注意其在隐私、安全和伦理方面的挑战。
2025-02-21
大模型和小模型区别是什么?是否大模型都属于生成式AI,小模型属于判别式AI,为什么大模型有幻觉小模型没有?
大模型和小模型的区别主要体现在以下几个方面: 1. 规模和参数数量:大模型通常具有更多的参数和更复杂的架构,能够处理更大量和更复杂的数据。 2. 能力和性能:大模型在语言理解、生成等任务上往往表现更出色,能够生成更准确、丰富和连贯的内容。 3. 应用场景:大模型适用于广泛的通用任务,而小模型可能更专注于特定的、较狭窄的领域。 并非大模型都属于生成式 AI,小模型都属于判别式 AI。生成式 AI 能够生成新的内容,如文本、图片等;判别式 AI 则主要用于对输入进行分类或判断。模型的分类与其大小并无直接的必然联系。 大模型出现幻觉的原因主要是其通过训练数据猜测下一个输出结果,可能会因错误或不准确的数据导致给出错误的答案。而小模型相对来说数据量和复杂度较低,出现幻觉的情况相对较少,但这并非绝对,还取决于模型的训练质量、数据的准确性等多种因素。优质的数据集对于大模型减少幻觉现象非常重要。
2025-02-21
如果想用AI创作表情包,推荐用什么AI大模型
如果您想用 AI 创作表情包,以下是一些推荐的 AI 大模型及相关平台: 1. MewXAI:这是一款操作简单的 AI 绘画创作平台。其功能包括 MX 绘画,拥有众多超火模型和上百种风格,支持文生图、图生图;MX Cute 是自研的可爱风动漫大模型;MJ 绘画在表情包制作等方面表现出色;还有边缘检测、室内设计、姿态检测、AI 艺术二维码、AI 艺术字等多种功能。访问地址:https://www.mewxai.cn/ 2. 在开发 AI Share Card 插件的过程中,选用的是 GLM4flash 模型。它具有较长的上下文窗口、响应速度快、并发支持高、免费或价格较低等优点。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-21
复杂推理的产品,给模型灌什么能够更好训练推理能力?以及怎么优化模型的推理准确度?
以下是一些能够更好训练模型推理能力以及优化推理准确度的方法: 1. OpenAI 的推理模型通过强化学习进行训练,在训练过程中,模型学会在回答前思考,产生长链的思维过程,并不断尝试不同策略,识别错误,从而能够遵循特定的指导方针和模型政策,提供更有用的回答,避免产生不安全或不适当的内容。 2. 蒙特卡洛树搜索(MCTS)对推理模型有积极影响,例如在数学定理证明中,能探索非确定性证明路径,将解决 IMO 几何题的耗时从传统方法的 30 分钟降至 90 秒;在多跳问答系统中,结合 MCTS 的模型在 HotpotQA 数据集上准确率提升 12%,因其能回溯验证中间推理步骤。 3. 动态知识融合机制方面,传统基于规则的推理无法处理模糊知识,而 MCTS 增强方案在医疗诊断中可将误诊率从纯规则引擎的 23%降至 9%。 4. 资源分配优化方面,在逻辑谜题求解任务中,MCTS + Transformer 能达到 85%准确率且耗时 3 秒,而纯 Transformer 为 62%准确率且耗时 8 秒;在法律条文推导任务中,MCTS + Transformer 有 92%合规性且耗时 5 秒,纯 Transformer 为 88%合规性且耗时 2 秒。 OpenAI 于 9 月 12 日发布的新模型 o1 旨在实现通用复杂推理,通过强化学习和思维链的方式提升推理能力,尤其在数学和编程领域表现出色,但用户反馈显示其实际表现与宣传存在差距,成本高于 GPT4o,且在某些任务上优势不明显,OpenAI 仍在探索如何优化模型的推理性能。
2025-02-21
偏推理型的内容,怎么提升模型的推理深度及准确度?
提升模型推理深度及准确度的方法包括以下几个方面: 1. 扩大模型规模:随着模型规模的扩大,其推理能力会得到提升,类似于 AlphaGo 或 AlphaZero 的工作方式,通过蒙特卡罗推演来修改评估函数,从而提高推理精度。 2. 引入多模态学习:引入图像、视频和声音等多种模式将极大地改变模型的理解和推理能力,特别是在空间理解方面。多模态模型可以通过更多的数据和更少的语言来进行学习。 3. 优化训练方法: RLHF(Reinforcement Learning from Human Feedback):模型在这个过程中的目标是最大程度地获得人类的认可,通过奖励模型来衡量。 结合不同的推理能力提高途径:将生成不同的思维链(CoT)并选择有效路径的方法,与在部署时用大量计算进行推理的方法结合起来。 4. 改进模型结构和算法: 规模和算法是科技进步的关键因素,数据和计算规模具有决定性作用。 在模型之上添加启发式方法或增加模型本身的规模。 此外,Hinton 还提到了一些相关观点,如最合理的模型是将符号转换成大向量并保留符号的表面结构,大型语言模型通过寻找共同的结构来提高编码效率,以及即使训练数据中有错误,大型神经网络也具有超越训练数据的能力等。
2025-02-21