Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

会议语音识别并转为总结,思维导图。有什么开源项目模型支持?

Answer

以下是一些支持会议语音识别并转为总结、思维导图的开源项目:

  1. 熊猫大侠:
    • 基于 COW 框架的 ChatBot 实现。
    • 支持多端部署,可接入个人微信、微信公众号、企业微信应用。
    • 具备基础对话功能,支持私聊及群聊的消息智能回复,多轮会话上下文记忆,支持 GPT-3、GPT-3.5、GPT-4、文心一言模型。
    • 支持语音识别,可识别语音消息,通过文字或语音回复,支持 azure、baidu、google、openai 等多种语音模型。
    • 支持图片生成和图生图,可选择 Dell-E、stable diffusion、replicate、Midjourney 模型。
    • 拥有丰富插件,支持个性化插件扩展,已实现多角色切换、文字冒险、敏感词过滤、聊天记录总结等插件。
    • Tool 工具能与操作系统和互联网交互,支持最新信息搜索、数学计算、天气和资讯查询、网页总结,基于chatgpt-tool-hub实现。
    • 可通过上传知识库文件自定义专属机器人,作为数字分身、领域知识库、智能客服使用,基于 LinkAI 实现。
    • 项目地址(Github):https://github.com/zhayujie/chatgpt-on-wechat
    • 项目地址(Gitee):https://gitee.com/zhayujie/chatgpt-on-wechat
  2. 阿里云百炼大模型平台:
    • 具备对话分析能力,可根据对话内容生成标题和质检项等,结果以 JSON 结构呈现。
    • 支持 API 调用,为实现企业级应用融合,可接入 API 将应用包装到工作流程链路中,满足企业数据安全隔离等需求。
    • 支持图像生成,可通过 Flux 模型等生成图像,设置参数如正向提示词、负面提示词等。
    • 支持文本生成,能生成小红书风格文案、朋友圈文案等各种营销文案,还能结合多模态模型创作歌曲。
    • 拥有语音模型,包括语音合成和识别,可选择多种角色和自定义内容,对通用文字识别准确,对专有名词可微调识别。
    • 支持视频处理,如影视传媒理解,能提取视频信息、分析爆点、生成字幕和思维导图等。
    • 支持工作流串联,实时语音识别后可生成会议纪要,实现企业级应用中的工作流串联。
    • 支持智能体应用的搭建与发布,工作流应用由多个节点组成,包括大模型节点、知识库节点、API 节点等,可实现意图分类和商品导购,还能进行文本转换兜底。
    • 智能体应用创建有多种应用模板,可添加知识库,如客服话术知识库,能通过提示词和知识库数据进行智能客服问答。
    • 支持多模态交互,包括语音交互和视频交互,语音交互可配置是否智能打断,视频交互需使用 VO 模型。
    • 发布渠道有官方应用、钉钉机器人、微信公众号等,还有低代码开发平台,可快速创建 Web 应用。
Content generated by AI large model, please carefully verify (powered by aily)

References

熊猫大侠:基于COW框架的ChatBot实现步骤

最新版本支持的功能如下:多端部署:可接入个人微信、微信公众号、企业微信应用基础对话:私聊及群聊的消息智能回复,支持多轮会话上下文记忆,支持GPT-3,GPT-3.5,GPT-4,文心一言模型语音识别:可识别语音消息,通过文字或语音回复,支持azure,baidu,google,openai等多种语音模型图片生成:支持图片生成和图生图(如照片修复),可选择Dell-E,stable diffusion,replicate,Midjourney模型丰富插件:支持个性化插件扩展,已实现多角色切换、文字冒险、敏感词过滤、聊天记录总结等插件Tool工具:与操作系统和互联网交互,支持最新信息搜索、数学计算、天气和资讯查询、网页总结,基于[chatgpt-tool-hub](https://github.com/goldfishh/chatgpt-tool-hub)实现知识库:通过上传知识库文件自定义专属机器人,可作为数字分身、领域知识库、智能客服使用,基于LinkAI实现项目地址(Github):[https://github.com/zhayujie/chatgpt-on-wechat](https://github.com/zhayujie/chatgpt-on-wechat)项目地址(Gitee):[https://gitee.com/zhayujie/chatgpt-on-wechat](https://gitee.com/zhayujie/chatgpt-on-wechat)

熊猫大侠:基于COW框架的ChatBot实现步骤

最新版本支持的功能如下:多端部署:可接入个人微信、微信公众号、企业微信应用基础对话:私聊及群聊的消息智能回复,支持多轮会话上下文记忆,支持GPT-3,GPT-3.5,GPT-4,文心一言模型语音识别:可识别语音消息,通过文字或语音回复,支持azure,baidu,google,openai等多种语音模型图片生成:支持图片生成和图生图(如照片修复),可选择Dell-E,stable diffusion,replicate,Midjourney模型丰富插件:支持个性化插件扩展,已实现多角色切换、文字冒险、敏感词过滤、聊天记录总结等插件Tool工具:与操作系统和互联网交互,支持最新信息搜索、数学计算、天气和资讯查询、网页总结,基于[chatgpt-tool-hub](https://github.com/goldfishh/chatgpt-tool-hub)实现知识库:通过上传知识库文件自定义专属机器人,可作为数字分身、领域知识库、智能客服使用,基于LinkAI实现项目地址(Github):[https://github.com/zhayujie/chatgpt-on-wechat](https://github.com/zhayujie/chatgpt-on-wechat)项目地址(Gitee):[https://gitee.com/zhayujie/chatgpt-on-wechat](https://gitee.com/zhayujie/chatgpt-on-wechat)

入门篇:应用广场超多案例解析 2025年1月7日

[heading2]总结阿里云百炼大模型平台的能力与应用体验对话分析能力:创建了对话分析,可根据对话内容生成标题和质检项等,结果以JSON结构呈现。API调用:为实现企业级应用融合,可接入API将应用包装到工作流程链路中,满足企业数据安全隔离等需求。图像生成:可通过Flux模型等生成图像,设置参数如正向提示词、负面提示词等。文本生成:能生成小红书风格文案、朋友圈文案等各种营销文案,还能结合多模态模型创作歌曲。语音模型:包括语音合成和识别,可选择多种角色和自定义内容,对通用文字识别准确,对专有名词可微调识别。视频处理:如影视传媒理解,能提取视频信息、分析爆点、生成字幕和思维导图等。工作流串联:实时语音识别后可生成会议纪要,实现企业级应用中的工作流串联。智能体应用的搭建与发布工作流应用:由多个节点组成,包括大模型节点、知识库节点、API节点等,可实现意图分类和商品导购,还能进行文本转换兜底。智能体应用创建:有多种应用模板,可添加知识库,如客服话术知识库,能通过提示词和知识库数据进行智能客服问答。多模态交互:包括语音交互和视频交互,语音交互可配置是否智能打断,视频交互需使用VO模型。发布渠道:有官方应用、钉钉机器人、微信公众号等,还有低代码开发平台,可快速创建Web应用。

Others are asking
有没有自动生成思维导图的案例
以下是一些自动生成思维导图的案例: 案例一:熊猫 Jay 的“文章转思维导图小助手” 主要功能:根据文章内容或在线文档路径,自动生成文章要点的思维导图。 生成思维导图的 Action API 来自 Gapier,但获取在线文档的文本信息需配置 Webpilot 以获取更完整文本。 配置 Webpilot 的步骤: 去除新建 GPT 时默认勾选的 Web Browsing,避免冲突。 输入并点击 Import 导入配置信息。 输入配置隐私策略地址。 案例二:危柯宇的“读书会活动 AI 赋能” 日常活动文案输出(读书社活动,AI 复核型玩法“高阶”,依托传音智库+飞书妙记+在线思维导图 Markmap) 方法一:一键知识图谱 用 kimichat 让 AI 拆解书籍的三级章节并按照 markdown 产出内容,Prompt 示例:帮我拆解《爱的五种语言》,生成全书内容的思维导图,要求每个章节后面有三级展开,下一级是主要知识点,下下一级是知识点的论述。访问地址: 复制 AI 内容粘贴到在线思维导图 Markmap 中,一键生成思维导图,还可自定义微调内容,并免费导出图片。访问地址: 方法二:推导知识图谱(可参考相关 prompt 自己构建) 案例三:熊猫 Jay 的“代码生成思维导图助手” 根据代码自动整理成思维导图,目的是将复杂代码清晰呈现,方便查看。 GPTs 地址:
2025-03-09
怎么用ai 快速生成思维导图
以下是几种使用 AI 快速生成思维导图的方法: 1. 多智能体 AI 搜索引擎方案: 第一步,快速搜索补充参考信息:根据用户任务,使用搜索工具 API WebSearchPro 补充更多信息,参考文档:https://bigmodel.cn/dev/api/searchtool/websearchpro 。 第二步,用模型规划和分解子任务:使用大模型如 GLM40520 把用户问题拆分成若干子搜索任务,并转换为 JSON 格式,参考 API 文档:https://bigmodel.cn/dev/api/normalmodel/glm4 ,JSON 格式处理参考:https://bigmodel.cn/dev/howuse/jsonformat 。 第三步,用搜索智能体完成子任务:AI 搜索智能体具备联网搜索和自主分析多轮搜索任务的能力,智能体 API 的调用方式参考文档:https://bigmodel.cn/dev/api/qingyanassistant/assistantapi ,智能体 id:659e54b1b8006379b4b2abd6 ,简介:连接全网内容,精准搜索,快速分析并总结的智能助手。 第四步,总结子任务生成思维导图:智能体能调用各种插件,包括思维导图,智能体 API 的调用方式参考文档:https://bigmodel.cn/dev/api/qingyanassistant/assistantapi ,智能体 id:664e0cade018d633146de0d2 ,简介:告别整理烦恼,任何复杂概念秒变脑图。 2. 读书会活动 AI 赋能案例: 日常活动文案输出(读书社ing,AI 复核型玩法“高阶”,依托传音智库+飞书妙记+在线思维导图 Markmap): 方法一:一键知识图谱 用 kimichat 让 ai 拆解这本书的三级章节并按照 markdown 产出内容,Prompt:帮我拆解《爱的五种语言》,生成全书内容的思维导图,要求每个章节后面有三级展开,下一级是主要知识点,下下一级是知识点的论述。先输出对应的 markdown ,访问地址:https://kimi.moonshot.cn/ 。 复制 ai 内容粘贴到在线思维导图 Markmap 中,一键生成思维导图,还可以自定义微调内容,并免费导出图片,访问地址:https://www.min2k.com/tools/markmap/ 。 方法二:推导知识图谱(可以参考下面 prompt 自己构建)。 3. 使用特定的 AI 绘图工具: Creately:是一个在线绘图和协作平台,利用 AI 功能简化图表创建过程,适合绘制流程图、组织图、思维导图等。智能绘图功能,可以自动连接和排列图形,有丰富的模板库和预定义形状,实时协作功能适合团队使用,官网:https://creately.com/ 。 Whimsical:是一个专注于用户体验和快速绘图的工具,适合创建线框图、流程图、思维导图等。直观的用户界面易于上手,支持拖放操作,快速绘制和修改图表,提供多种协作功能适合团队工作,官网:https://whimsical.com/ 。 Miro:是一个在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制,如思维导图、用户流程图等。无缝协作,支持远程团队实时编辑,有丰富的图表模板和工具,支持与其他项目管理工具(如 Jira、Trello)集成,官网:https://miro.com/ 。 使用 AI 绘制示意图的步骤: 选择工具:根据具体需求选择合适的 AI 绘图工具。 创建账户:注册并登录该平台。 选择模板:利用平台提供的模板库,选择适合需求的模板。 添加内容:根据需求添加并编辑图形和文字,利用 AI 自动布局功能优化图表布局。 协作和分享:如果需要团队协作,可以邀请团队成员一起编辑。完成后导出并分享图表。
2025-03-07
有哪些好用的AI 思维导图工具
以下是一些好用的 AI 思维导图工具: 1. GitMind:免费的跨平台软件,支持多种模式,可通过 AI 自动生成思维导图。 2. ProcessOn:国内的思维导图+AIGC 工具,能利用 AI 生成思维导图。 3. AmyMind:轻量级在线工具,无需注册登录,支持自动生成节点。 4. Xmind Copilot:Xmind 推出的基于 GPT 的助手,可一键拓展思路,生成文章大纲。 5. TreeMind:“AI 人工智能”工具,输入需求即可由 AI 自动完成生成。 6. EdrawMind:提供一系列 AI 工具,包括头脑风暴功能,提升生产力。 此外,还有一些可用于绘制示意图的 AI 工具: 1. Lucidchart:强大的在线图表制作工具,集成 AI 功能,可绘制多种示意图。 2. Microsoft Visio:专业图表绘制工具,适用于复杂流程图等,AI 功能可优化设计。 3. Diagrams.net:免费开源的在线工具,支持多种存储和集成。 Creately 也是一个在线绘图和协作平台,利用 AI 简化图表创建过程,适合绘制多种图。Whimsical 专注于用户体验和快速绘图,Miro 是结合 AI 功能的在线白板平台,适用于团队协作和各种示意图绘制。 使用 AI 绘制示意图的步骤: 1. 选择工具:根据具体需求选择合适的 AI 绘图工具。 2. 创建账户:注册并登录平台。 3. 选择模板:利用平台模板库选择适合需求的模板。 4. 添加内容:根据需求添加并编辑图形和文字,利用 AI 自动布局优化图表布局。 5. 协作和分享:如需团队协作,邀请成员一起编辑,完成后导出并分享图表。
2025-03-07
语音转文本,能识别不同人声,并将文本进行总结汇总,行程纪要或思维导图等
以下是为您提供的相关信息: ElevenLabs 发布了全球最精准的语音转文字模型 Scribe,它支持 99 种语言,语音转录准确率超越 Gemini 2.0 和 OpenAI Whisper v3,可识别 32 个不同说话者,并标记笑声、鼓掌等非语言元素,提供单词级时间戳,方便字幕同步和音频编辑,输出结构化 JSON,便于开发者集成。相关链接: 另外,为您推荐以下在线 TTS 工具: 1. Eleven Labs:https://elevenlabs.io/ ,ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件,使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化,并能够根据上下文调整表达方式。 2. Speechify:https://speechify.com/ ,Speechify 是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。它可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,可用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal ,Microsoft Azure Speech Studio 是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持 100 多种语言和方言的语音转文本和文本转语音功能。此外,它还提供了自定义的语音模型,这些模型能够适应特定领域的术语、背景噪声以及不同的口音。 4. Voicemaker:https://voicemaker.in/ ,AI 工具可将文本转换为各种区域语言的语音,并允许您创建自定义语音模型。Voicemaker 易于使用,非常适合为视频制作画外音或帮助视障人士。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-07
思维导图的ai
以下是一些与思维导图相关的 AI 工具: 1. GitMind:免费跨平台,支持多种模式,可通过 AI 自动生成思维导图。 2. ProcessOn:国内思维导图与 AIGC 结合,能利用 AI 生成思维导图。 3. AmyMind:轻量级在线工具,无需注册登录,支持自动生成节点。 4. Xmind Copilot:Xmind 推出的基于 GPT 的助手,可一键拓展思路、生成文章大纲。 5. TreeMind:“AI 人工智能”思维导图工具,输入需求即可由 AI 自动生成。 6. EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能,提升生产力。 此外,在国内总榜 Top80 中,思维导图相关的产品 Xmind 排名 32,4 月访问量为 71.3 万,相对 3 月变化为0.179。 以下是一些可以用于绘制示意图的 AI 工具和平台: 1. Lucidchart:强大的在线图表制作工具,集成 AI 功能,可自动化绘制多种示意图,具有拖放界面、支持团队协作和实时编辑、丰富模板库和自动布局等功能,官网:https://www.lucidchart.com/ 2. Microsoft Visio:专业图表绘制工具,适用于复杂流程图等,AI 功能可帮助自动化布局和优化图表设计,集成 Office 365,有丰富图表类型和模板,支持自动化和数据驱动的图表更新,官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 3. Diagrams.net:免费开源的在线图表绘制工具,适用于各种示意图绘制,支持本地和云存储,有多种图形和模板,易于创建和分享图表,可与多种第三方工具集成,官网:https://www.diagrams.net/
2025-03-07
哪个AI生成思维导图
以下是一些可以生成思维导图的 AI 工具: 1. GitMind:免费的跨平台 AI 思维导图软件,支持多种模式,如提问、回答、自动生成等。 2. ProcessOn:国内思维导图与 AIGC 结合的工具,可利用 AI 生成思维导图。 3. AmyMind:轻量级在线 AI 思维导图工具,无需注册登录,支持自动生成节点。 4. Xmind Copilot:Xmind 推出的基于 GPT 的 AI 思维导图助手,可一键拓展思路,生成文章大纲。 5. TreeMind:“AI 人工智能”思维导图工具,输入需求即可由 AI 自动完成思维导图生成。 6. EdrawMind:提供一系列 AI 工具,包括 AI 驱动的头脑风暴功能,帮助提升生产力。 此外,还有 ChatMind 也是利用 AI 自动生成思维导图的在线工具,只需要输入问题、文章、数据就可以,并且对于问题,还能自己获取答案,可导出图片与 Markdown 文档两种格式。在使用某些工具时,如配置插件节点生成思维导图,需要确定处理方式、输入和输出等相关设置。
2025-03-06
使用llm的爬虫工具推荐下,开源免费
以下是为您推荐的开源免费的使用 LLM 的爬虫工具: 1. Jina 开源的网页内容爬取工具:Reader API 能从网址提取出核心内容,并将其转化为干净、易于大语言模型处理的文本,确保为您的 AI 智能体及 RAG 系统提供高品质的数据输入。 2. Scrapy 库(Python 语言):在 crawlab 可以做到分布式爬取,非常高效。 3. GPT Crawler:主要运用 typescript 进行数据爬取。 4. 在开源的项目中,为实现对含有 JavaScript 内容的网页抓取,不使用 Python 自己的 request 库,而是使用 playwright 之类的浏览器,并将网页内容按照一定规则转化成 markdown 格式,方便 LLM 后续的理解和抓取。 同时,对于爬虫工具的选择,还需根据您的具体需求和技术熟悉程度来决定。
2025-03-06
你作为AI开源项目的专家,请解释下如何来做一个AI开源项目
要做一个 AI 开源项目,以下是一些关键步骤和要点: 1. 明确项目目标和范围:确定您的 AI 开源项目要解决的具体问题和应用场景,以及项目的边界和功能。 2. 制定.cursorrules: 说明自己的身份和期望的技能:告诉 AI 您希望它具备的专业水准和技能。 明确项目任务:清晰地告知 AI 项目的具体目标和要求。 设定项目规则:包括代码规范、风格等,以保证代码的一致性和可维护性。 规划文件存放位置:便于代码的组织和查找。 指定使用的工具:如框架和库,确保项目的整洁和统一。 说明测试要求:让 AI 生成的代码具有可测试性,并主动编写测试用例。 提供参考资料:帮助 AI 基于最佳实践进行开发。 如有 UI 需求,明确相关要求。 3. 选择合适的技术和框架:例如 Fooocus 这样的图像生成开源项目,它内置多种风格,适合小白上手,且具有离线、开源、免费等特点,支持在多种操作系统上使用,并借鉴了稳定扩散和 Midjourney 的设计思想。 4. 考虑开源的角色和影响:从长远来看,开源模型的情况会变得复杂。对于具有高度能力的模型,如能够自主创办和建立大型科技公司或进行科学研究的模型,其是否开源会产生难以预测的后果。 总之,创建一个 AI 开源项目需要综合考虑多方面的因素,包括技术选型、规则制定、目标明确等,以确保项目的成功和可持续发展。
2025-03-06
我想完全本地化部署deepseek,然后,将我的文档,文本,图片等内容丢给它训练,微调。我要完全本地化,因为我的文档设计隐私。我要免费开源流程。如何实现,
要完全本地化部署 DeepSeek 并使用您的文档、文本、图片等内容进行训练和微调,以下是一些相关的信息和步骤: 1. 模型训练与平台服务: 模型复现与微调:1:1 复现通常没问题,但理解细节并自行制作需要基础知识。有手把手教程、数据集等可帮助 1:1 复现,微调在特定领域可降低幻觉,参数量不变但权重变化。 训练模型的学习方法:先会用再学会训,从训的过程中倒推学习参数调整,这是以用导学的学习方法。 模型回答效果对比:微调后的模型在回答排列组合等问题时,思考前几乎无反馈,答案多为英文且格式稳定,但仍可能答错。 2. 平台服务介绍: 阿里云提供多种解决方案。 百炼是提供多种模型服务的 Maas 平台。 派平台是提供云服务的 PaaS 平台,二者在定位、服务内容和核心差异上有所不同。 3. 关于模型训练与数据集相关问题: 数据资源情况:默认提供公共数据训练集,百派平台能匹配模型和数据,通义开源了不少数据集。 多模态训练:多模态有自身标注方式,如视频拉框标注。 参数量变化:通常训练模型参数量固定,若想改变需改模型层,但可能要从头调。 本地微调框架:可使用 llama factory 等框架,需搭建并部署。 开源数据下载:可在 GitHub、hugging face、Mo Model Scope 等平台获取。 数据集转化:将文档资料转成数据集可先手动形成 SOP,再逐步自动化,初期需大量人力。 4. 本地部署介绍:讲解了如果拥有云服务器如何进行本地部署,以及满血版本地部署的实际情况。 5. 免费额度说明:在 freely.aliyun.com 可领取 500 元免费额度,但有使用限制,不能部署满血版和较大的增流模型。 6. 平台服务差异:介绍了 DLC、DSW 和 EAS 等模型部署平台服务的差别。 7. 模型蒸馏微调:会带着大家复现模型的蒸馏和微调,并讲解相关知识。 R1 模型的强化学习:通过强化学习,在训练过程中给予模型反馈,如路线规划是否成功到达终点、输出格式是否符合期望等,对正确路线增强权重,使做对的概率变高,导致思考逻辑变长。 R1 模型的蒸馏与微调:用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。 R1 与其他模型的差别:R1 是原生通过强化学习训练出的模型,蒸馏模型是基于数据微调出来的,基础模型能力强,蒸馏微调模型能力也会强。 模型的相互帮助:Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面,使两个模型都更强。 请注意,在进行本地化部署和训练微调时,需要具备一定的技术知识和经验,并且要遵循相关的法律法规和道德规范。
2025-03-04
有什么免费开源的数字人AI工具
以下为您推荐一些免费开源的数字人 AI 工具: 1. Aigcpanel: 特点:开源且适合小白用户,具有一键安装包,无需配置环境,简单易用。 功能:能够生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub 链接: 官网: 2. Heygen: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片。 上传后效果如图所示,My Avatar 处显示上传的照片。 点开大图后,点击 Create with AI Studio,进入数字人制作。 写上视频文案并选择配音音色,也可以自行上传音频。 最后点击 Submit,就可以得到一段数字人视频。 3. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 点击上面的网址,点击右上角的 Create vedio。 选择人物形象,可以点击 ADD 添加自己的照片,或者使用 DID 给出的人物形象。 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 最后,点击 Generate vedio 就可以生成一段视频。 打开自己生成的视频,可以下载或者直接分享给朋友。 4. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很 AI。 使用方法: 点击上面的网址,注册后获得 120 免费 k 币,这里选择“照片数字人口播”的功能。 点击开始创作,选择自定义照片。 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 打开绿幕按钮,点击背景,可以添加背景图。 最后,点击生成视频。
2025-02-24
开源模型和闭源模型
开源模型和闭源模型的情况如下: 专有模型(闭源模型):如 OpenAI、Google 等公司的模型,需访问其官方网站或平台(如 ChatGPT、Gemini AI Studio)使用。 开源模型: 可使用推理服务提供商(如 Together AI)在线体验和调用。 可使用本地应用程序(如 LM Studio)在个人电脑上运行和部署较小的开源模型。 例如 DeepSeek、Llama 等开源模型。 Qwen 2 开源,具有多种尺寸的预训练和指令调整模型,在大量基准评估中表现出先进性能,超越目前所有开源模型和国内闭源模型,在代码和数学性能等方面显著提高。 金融量化领域的大模型正趋向闭源,几个巨头的核心模型如 OpenAI 最新一代的 GPT4、Google 的 Bard 以及未来的 Gemini 短时间内不会公开。Meta 的 LLaMA 目前开源,但未来可能改变。OpenAI 未来可能开源上一代模型。
2025-02-17
做chatbi有什么开源项目可以参考
以下是一些可参考的做 chatbot 的开源项目: Inhai:Agentic Workflow:其中介绍了大模型利用「网页搜索」工具的典型例子,还包括 Agent 自行规划任务执行的工作流路径以及多 Agent 协作的内容。 ChatDev:吴恩达通过此开源项目举例,可让大语言模型扮演不同角色相互协作开发应用或复杂程序。 ChatMLX:多语言支持,兼容多种模型,具有高性能与隐私保障,适用于注重隐私的对话应用开发者。链接:https://github.com/maiqingqiang/ChatMLX
2025-02-17
语音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用方法: 特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且自然。 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 使用方法: 前置数据获取处理:选择音频,开启切割;有噪音时,进行降噪处理;降噪处理完成,开启离线 ASR。 GPTSowitsTTS:训练集格式化,开启一键三连,耐心等待;微调训练,开启 SoVITS 训练和 GPT 训练;推理时,开始推理、刷新模型、选择微调后的模型。 声音复刻:实现跨多语种语言的声音。 注册 colab,启动准备:点击进入按照步骤注册,新建笔记本,运行脚本启动 GPTSo VITS,整个过程比较漫长,需要耐心等待,可以整个脚本一起运行,也可以一段一段运行。运行成功后会出现 public URL,还需准备训练音频并上传。 相关资源: GitHub:https://github.com/RVCBoss/GPTSoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/ 开源项目:https://github.com/RVCBoss/GPTSoVITS colab 注册及启动:https://colab.research.google.com/scrollTo=Wf5KrEb6vrkR&uniqifier=2 实践的样本: AIyoyo 普通话 满江红: AIyoyo 粤语版 满江红:
2025-03-09
正在搭建客户CRM系统,对于客户拜访跟进记录表格,希望平衡销售人员的录入便捷性和信息完整性,如何通过多维表格接入的AI功能来简化信息录入,比如通过语音录音,直接解析内容。推荐我具体方法,包括怎么解析语音,输出的关键字段,以及提示词
以下是一种通过多维表格接入的 AI 功能来简化客户拜访跟进记录信息录入的方法: 1. 定义任务目标:让 AI 成为您的私人 CRM,即客户管理系统。 2. 编写指令: 定义角色:希望 AI 作为一名顶级的客户服务与销售总监,负责记住客户的爱好与信息。 提供背景信息:简单描述自己的身份,例如负责什么产品的销售。 明确任务目标和输出要求:在每次拜访客户后,把重要信息发送给 AI,要求 AI 每次接到新的客户消息后,只用回复一句“收到,知道了。” 3. 信息录入方式:可以通过语音录音的方式将拜访客户的信息传达给 AI。 4. 语音解析:利用 AI 的语音识别和自然语言处理能力,对语音内容进行解析。 5. 输出的关键字段:可能包括客户姓名、联系方式、拜访时间、拜访内容要点、客户需求、客户反馈等。 6. 提示词:例如“请整理本次拜访客户的关键信息”“提取重要内容并生成表格”等。 您可以参考以上方法,根据实际需求进行调整和优化。
2025-03-07
免费语音合成API
以下是关于出门问问语音合成(TTS)API 的相关信息: 接口请求域名:https://open.mobvoi.com/api/tts/v1 接口请求频率限制:5 次/秒 调用参数及说明: 字段名:text 必填:是 类型:String 描述:要合成的文本内容,限制为 1000 字符。支持 ssml 标记语言,使用说明见附录 3。 字段名:appkey 必填:是 类型:String 描述:开发者在 AI 开放平台上申请的 appkey。 字段名:signature 必填:是 类型:String 描述:签名,通过“appkey+secret+timestamp”进行 md5 加密,得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。每次请求实时计算签名,签名有效期为 10 分钟。 字段名:timestamp 必填:是 类型:Long 描述:当前时间戳,单位为秒。 字段名:speaker 必填:否 类型:String 描述:合成音频指定发音人。默认值:cissy_meet。其他发音人传值及计费价格请参考声音商店。 字段名:audio_type 必填:否 类型:String 描述:合成音频的格式。默认值:mp3。可选值:pcm/mp3/speexwb10/wav。只支持这四种格式中的一种。 字段名:speed 必填:否 类型:Float 描述:发音人合成的语速,支持小数点后两位。默认值:1.0。可选值:0.5 2.0。 字段名:convert 必填:否 类型:String 描述:默认值:无。可选值:robot。是否转化为机器声。 字段名:rate 必填:否 类型:Long 描述:音频采样率。默认值:无,由 speaker 指定默认值。可选值:8000/16000/24000。 字段名:volume 必填:否 类型:Float 描述:合成音量。默认值:1.0。可选值:0.1 1.0。 字段名:pitch 必填:否 类型:Float 描述:语调参数,参数小于 0 则语调变低,反之则高。默认值:0。可选值:10 < pitch < 10(streaming 接口不支持)。 字段名:symbol_sil 必填:否 类型:String 描述:符号停顿时长映射方法(逗号分割)见下方停顿符号映射表。充值后自动开通权限(streaming 接口不支持)。 字段名:ignore_limit 必填:否 类型:Boolean 描述:默认值:false。可选值:false/true。是否限制字符数,如果设置 true,传输的文本可以超过 1000 字符限制,最大字符数 3000。充值后自动开通权限。 出门问问语音合成技术(TTS)可以将任意文本转化为语音,实现让机器和应用张口说话。其可应用于视频 APP 配音解说、小说 App 有声阅读、移动 App 新闻语音播报、智能设备语音提醒、车载导航语音合成的个性化语音播报等场景。该服务提供了普通话、台湾腔、粤语、四川话、东北话等多种方言,数百个发音人,上千种风格,满足不同场景的选择需求。实时合成支持 SSML,语法详见 SSML 标记语言。 HTTP Method:支持 POST 请求。
2025-03-07
我想让cursor帮我编程一个能在Android studio编译的Android应用,它的主要功能是接受esp32通过websocket协议发送过来的opus数据,保存opus并把数据转换成wav,再使用sherpa-onnx语音识别成文字。我该使用什么提示词让cursor帮我写出这个Android应用?
很抱歉,目前没有适用于让 Cursor 生成您所需 Android 应用的特定提示词。编写这样一个复杂的 Android 应用需要对 Android 开发、网络通信、音频处理和语音识别等多个领域有深入的了解和专业知识。您可能需要逐步向 Cursor 描述应用的架构、各个模块的功能和实现逻辑,例如先描述如何建立与 ESP32 的 WebSocket 连接,如何接收和处理 Opus 数据,如何进行数据转换以及如何调用 Sherpaonnx 进行语音识别等。但需要注意的是,仅仅依靠提示词让 Cursor 生成完整可用的复杂应用可能具有一定的局限性,建议您在具备相关基础知识的前提下,结合 Cursor 的辅助来逐步完成开发。
2025-03-06
我想让cursor帮我编程一个能在Android studio编译的Android应用,它的主要功能是接受esp32通过websocket协议发送过来的opus数据,保存opus并把数据转换成wav,再使用sherpa-onnx语音识别成文字。我该使用什么提示词让cursor帮我写出这个Android应用?
很抱歉,目前没有关于使用 Cursor 生成您所需的这种特定 Android 应用的提示词的相关内容。一般来说,您可以向 Cursor 提供以下关键信息作为提示词的参考: 1. 明确应用的功能需求,如“编写一个在 Android Studio 中编译的 Android 应用,用于接收 ESP32 通过 WebSocket 协议发送的 Opus 数据,保存 Opus 并转换为 WAV 格式,然后使用 Sherpaonnx 进行语音识别成文字。” 2. 描述应用的技术架构和关键技术点,例如“应用需基于 Android 平台,使用合适的网络库处理 WebSocket 连接,采用有效的数据存储方式保存 Opus 数据,利用特定的音频转换库将 Opus 转换为 WAV,以及集成 Sherpaonnx 语音识别库实现文字转换。” 3. 提及开发环境和工具要求,比如“在 Android Studio 开发环境中,遵循 Android 应用开发规范和最佳实践。” 但需要注意的是,Cursor 生成的代码可能并不完全满足您的需求,还需要您进行进一步的修改和完善。
2025-03-06
所以我可以理解为CNN是一种图像分类识别的AI算法技术吗
卷积神经网络(CNN)是一种用于图像分类识别的 AI 算法技术。 ImageNet 成为深度神经网络革命的首选数据集,其中由 Hinton 领导的 AlexNet 就是基于卷积神经网络(CNN)。自 2012 年以来,在深度学习理论和数据集的支持下,深度神经网络算法大爆发,包括卷积神经网络(CNN)等。 连接主义的全面逆袭从 2012 年开始,欣顿教授和他的学生建立的 AlexNet 就是使用反向传播算法训练的卷积神经网络(CNN),其在图像识别方面击败了当时最先进的逻辑程序。 虽然 CNN 模型取得了显著成果并解决了许多问题,但也存在一些缺陷,如不能从整幅图像和部分图像识别出姿势、纹理和变化,池化操作导致模型不具备等变、丢失很多信息,需要更多训练数据来补偿损失,更适合像素扰动极大的图像分类,对某些不同视角的图像识别能力相对较差。因此,在 2011 年,Hinton 和他的同事们提出了胶囊网络(CapsNet)作为 CNN 模型的替代。
2025-03-07
图片识别
图片识别是一个复杂但重要的领域,以下为您介绍相关知识: 神经网络在图片识别中的应用:神经网络专门处理未知规则的情况。例如,将图片转换为黑白,调整图片至固定尺寸,与数据库中的内容进行对比,最终得出结论。其发展得益于生物学研究的支持,在数学上提供了方向,能够处理如手写体识别等未知情况。 感知机网络在图片识别中的工作方式:受大脑神经元网络的启发,罗森布拉特提出应用感知机网络执行视觉任务,如人脸和物体识别。以识别手写数字为例,将图像转换为一组数值输入,确定感知机的权重分配和阈值,使其能正确输出。感知机通过类似行为心理学中的训练方式,在样本上进行监督学习来获得正确的权重和阈值。 判断图片是否为 AI 生成:现在有不少网站通过对大量图片数据的抓取和分析来判断画作属性。例如 ILLUMINARTY 网站,但在测试中可能存在误判,如将结构严谨的真实摄影作品识别为 AI 作图,这反映出鉴定 AI 自身的逻辑算法不能像人类一样综合考虑各种表现。
2025-03-07
怎样设置一个AI自动识别车辆的仪器
目前知识库中没有关于如何设置 AI 自动识别车辆仪器的相关内容。但一般来说,设置这样的仪器可能需要以下步骤: 1. 确定识别需求和目标:明确要识别的车辆特征,如车型、颜色、车牌等。 2. 选择合适的传感器:例如摄像头、激光雷达等,以获取车辆的图像或数据。 3. 数据采集和标注:收集大量的车辆图像或数据,并进行准确的标注,以供 AI 模型学习。 4. 选择合适的 AI 算法和模型:根据需求和数据特点,选择适合的深度学习算法和模型,如卷积神经网络等。 5. 训练模型:使用标注好的数据对模型进行训练,不断优化模型的性能。 6. 模型评估和优化:通过测试数据评估模型的准确性和性能,对模型进行进一步的优化和调整。 7. 硬件集成和部署:将训练好的模型集成到相应的硬件设备中,并进行实际场景的部署和测试。 请注意,这只是一个大致的步骤框架,实际的设置过程可能会因具体的应用场景和技术要求而有所不同。
2025-03-06