Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

目前有哪些好用的移动端对话模型

Answer

以下是一些好用的移动端对话模型:

  1. ChatTTS 增强版:
    • 优点:针对对话式任务优化,实现自然流畅语音合成,支持多说话人;能预测和控制细粒度韵律特征,包括笑声、停顿和插入词等;在韵律方面超越大部分开源 TTS 模型,并提供预训练模型。
    • 不足:自回归模型存在稳定性不足的问题,可能出现声音突然变化或音质变差,可多次尝试以获取更好音频效果;目前发布的模型版本中,情感控制仅限于笑声及一些声音中断,未来版本计划开源更多情感控制功能。
    • 玩法:可直接访问 https://chattts.com/ 。
  2. MiniCPM:
    • 特点:能说会看、具备编程能力、拥有多模态能力的端侧模型,性能优秀,成本极低,支持 CPU 推理,已开源,并在主流移动操作系统上适配和测试。
    • 不足:在手机使用场景中,考虑耗电和速度时吸引力不足,可能快速耗尽电量、导致内存卡顿,若功能不能关闭则意义不大。
  3. GPT-3.5-turbo:与 text-davinci-003 能力相似,但价格仅为后者的十分之一,在大部分情况下更推荐使用。
Content generated by AI large model, please carefully verify (powered by aily)

References

卡尔:终于蹲到ChatTTS增强版整合包,AI视频配角们有了自己的声音~

1.✅对话式TTS:ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。2.✅细粒度控制:该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。3.✅更好的韵律:ChatTTS在韵律方面超越了大部分开源TTS模型,并提供预训练模型。4.❌模型稳定性:自回归模型存在稳定性不足的问题,可能会出现声音突然变成其他人的声音,或者音质突然变差,可以通过多次尝试来寻找更好的音频效果。5.⭕️情感控制:目前发布的模型版本中,情感控制仅限于笑声([laugh])以及一些声音中断([uv_break],[lbreak])。作者计划在未来的版本中开源更多情感控制的功能。几天前,我们还需要在本地和云端安装环境才能运行ChatTTS,玩法较为复杂。如今,陆续出现了在线网站和本地增强整合包。这里给大家介绍一下玩法,首先是网站:我们直接访问https://chattts.com/

质朴发言:AI Native 硬件:端侧 AI 革新将至|Z 沙龙第 7 期

但是人的自然对话需要10个tokens每秒左右,但使用场景中你需要展示出来,大家需要规划10个tokens。所以看起来,即使是CPM这样的小模型,即使在考虑到背景的情况下,也不能在端上做出非常好的自然阅读速度的生成。编者按:2月1日,面壁智能发布了旗舰端侧模型MiniCPM,它以小博大的性能超越了Mistral-7B,并在MT-Bench等榜单上表现出色。MiniCPM是一款能说会看、具备编程能力、拥有多模态能力的端侧模型。它不仅在性能上优秀,而且具有极低的成本,支持CPU推理。MiniCPM开源,并已在主流移动操作系统上进行了适配和测试。手机的使用场景方面,虽然在research paper上说可以用,但是在需要考虑耗电和速度的时候,它似乎并没有那么吸引人。所以如果厂家在手机上做这个生文功能,如果不能提供足够的不同的价值,其实还是挺没有吸引力的。因为它会快速耗尽你的电量,这是一个非常严重的问题。同时,需要的内存会变卡顿。而且,如果这个功能不能关闭,那它有什么意义呢?

会话补全(Chat completions)

gpt-3.5-turbo和text-davinci-003两个模型拥有相似的能力,但前者的价格只是后者的十分之一,在大部分情况下,我们更推荐使用gpt-3.5-turbo。对于许多开发者来说,转换就像重写和重新测试prompt一样简单。例如,假设你使用下面的补全prompt来让英语转换成法语:一个对应的对话会话是这样的:或者甚至只要用户消息:

Others are asking
免费好用的文生视频软件 做小说漫画推文
以下是一些免费好用的文生视频软件,可用于将小说做成漫画推文视频: 1. Stable Diffusion(SD):这是一种 AI 图像生成模型,能够基于文本描述生成图像。网址:https://github.com/StabilityAI 2. Midjourney(MJ):另一个适用于创建小说中场景和角色图像的 AI 图像生成工具。网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,可以生成图像和设计模板。网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。网址:https://www.aihub.cn/tools/video/gushiai/ 将小说转换成 AI 视频通常包括文本分析、角色与场景生成、视频编辑与合成等多个步骤。您可以根据具体需求选择合适的工具来完成您的小说漫画推文视频制作。
2025-02-20
有什么AI相关的笔记软件,既可以记录我的想法、灵感,然后AI也可以直接生成对我所写内容的评价(如可以安抚情绪),并且这个笔记软件的检索功能很好用
以下是一些符合您需求的 AI 相关笔记软件: 1. Notion AI:https://www.notion.so/help/guides/category/ai?ref=indigox.me 随着大语言模型的流行,其在智能化方面表现出色。 2. Mem.ai:https://mem.ai/?ref=indigox.me 一款 AI 驱动的笔记工具。 3. Pile:https://udara.io/pile/ 开源且界面美观,助力日记撰写和记录,集成 OpenAI API,具有 AI 搜索和问题解答功能,保证安全隐私。项目源码:https://github.com/UdaraJay/Pile
2025-02-19
哪款AI好用
以下是为小白推荐的一些好用的 AI 产品: 1. Notion AI(免费可用):可在笔记和文档中应用 AI 的力量,让工作更迅速,写作更出色,思考更伟大。 2. Guidde AI(免费可用):是一款生成式 AI 平台,使团队能够以 11 倍的速度传递专业知识,与客户或员工共享。 3. Arc Max:用 AI 优化浏览体验,在任何网页寻求 AI 辅助,智能标签页&下载重命名,集成 ChatGPT 等功能。 4. Trickle(免费可用):用 AI 将截图转换成可搜索的珍贵资源,帮助总结和整理截图,提取洞察以便于搜索和查询。将视觉混乱的图片转化为智能档案,允许用户截取任何内容,并在以后轻松地检索和使用其内容。 需要注意的是,以上推荐带有强烈主观性,只给大家一些参考意见。说的有失偏颇也请大家原谅。同时,有些个人感觉不好用/不常用/没用过的产品就不在推荐范围内。
2025-02-19
请推荐一款好用的提示词优化器
以下为您推荐几款好用的提示词优化器: 1. 星流一站式 AI 设计工具: 在 prompt 输入框中可输入提示词,使用图生图功能辅助创作。 支持自然语言和单个词组输入,启用提示词优化后能扩展提示词,更生动地描述画面内容。 提供预设词组,小白用户可点击使用。 提示词内容应准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等。 可调整负面提示词,利用“加权重”功能让 AI 明白重点内容,还具备翻译、删除所有提示词、会员加速等辅助功能。 2. 以下是一些提示词相关的模板和资源网站: Majinai: 词图: Black Lily: Danbooru 标签超市: 魔咒百科词典: AI 词汇加速器: NovelAI 魔导书: 鳖哲法典: Danbooru tag: AIBooru:
2025-02-18
哪个AI助手最好用?
目前没有直接关于“哪个 AI 助手最好用”的准确答案。但为您提供以下相关信息供参考: 在编程方面,有一些辅助编程的 AI 工具,如 GitHub Copilot,由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能为程序员快速提供代码建议;通义灵码,阿里巴巴团队推出,提供多种编程辅助能力;CodeWhisperer,亚马逊 AWS 团队推出,由机器学习技术驱动,可为开发人员实时提供代码建议;CodeGeeX,智谱 AI 推出的开源免费 AI 编程助手;Cody,代码搜索平台 Sourcegraph 推出,借助强大的代码语义索引和分析能力了解开发者的整个代码库;CodeFuse,蚂蚁集团支付宝团队推出的免费 AI 代码助手;Codeium,一个由 AI 驱动的编程助手工具,可提高编程效率和准确性。您可以根据自己的需求选择适合的工具。更多辅助编程 AI 产品,还可以查看:https://www.waytoagi.com/category/65 。 在其他领域,如视频问答方面,YouTube 推出了高级会员可使用的视频问答功能,通过视频下方的“Ask”按钮使用 AI 助手,支持询问关于视频的各种问题。 在照片处理方面,Cooraft 是个性化 AI 照片效果工具,能将自拍转换为 AI 风格视频、生成专业级高质量照片、添加艺术效果、制作趣味表情包、让静态照片动起来、将草图变真图等。 在购物方面,Perplexity 推出了 AI 购物助手:Shop Like a Pro,从产品搜索到下单全流程一站式完成,无需切换标签页,还具有 Buy with Pro 功能,支持直接研究商品并结账,提供免费送货服务,支持视觉搜索工具,通过拍照找到相关商品。
2025-02-18
党校老师或者大学老师备课,用哪一款AI更好用
以下是为党校老师或大学老师备课推荐的一些 AI 工具和相关案例: 1. 语言学习类: ,能够实时交流,并对发音或措辞给予反馈。 2. 学科指导类: 数学方面,像可以指导学生解决数学问题。 历史方面,通过模拟与杰出人物的聊天来教授历史,如。 3. 写作辅助类: 如 Grammarly、等工具帮助学生克服写作难题,并提升写作水平。 处理其他形式内容的产品,如协助创建演示文稿。 4. 减负指南类: 人机智慧学习协作框架,包括个性化学习计划,分析学生表现并根据知识差距和个人学习风格创建定制的学习路径。 课程开发/学习沉浸,生成模型生成图像、文本和视频,转化为补充教育材料、作业和练习题。 社会互动/沟通,与新的 AI 工具(如口语形式的 GPT4o)结合学习。 星火教师助手、知网备课助手。 5. 案例参考: 一个历史老师用 GPT 给学生讲课,通过 GPT 生成一个“沉浸式”历史片段游戏,让学生扮演一个角色“设身处地”地做决策,学生的作业是找出 GPT 的错误。相关链接:https://resobscura.substack.com/p/simulatinghistorywithchatgpt 、https://chat.openai.com/share/86815f4e674c4410893c4ae3f1b7412e/continue 。 需要注意的是,AI 与优秀的人类教师相比仍有差距,如缺乏课时设计,且教学目标设计缺乏合理的梯度。人机融合是大势所趋,AI 的高效率与人类教师的经验相结合。
2025-02-18
如何把视频的内容,包括对话的文字提取并总结成文字?
要把视频的内容包括对话文字提取并总结成文字,可以按照以下步骤进行: 1. 对于有字幕的 B 站视频,如果视频栏下面有字幕按钮,说明视频作者已上传字幕或后台适配了 AI 字幕。 2. 安装油猴脚本: 。 3. 安装之后刷新浏览器,点击字幕会出现“下载”按钮。 4. 点击下载按钮,选择多种字幕格式,如带时间或不带时间的。 5. 将下载的字幕文字内容全选复制发送给 GPTs 进行总结。 此外,还有一个集成的视频理解系统 MMVid,它由 Microsoft Azure AI 开发,结合了 GPT4V 的能力和其他视觉、音频和语音处理工具,能处理和理解长视频和复杂任务,能够自动识别和解释视频中的元素,如人物行为、情感表达、场景变化和对话内容,从而实现对视频故事线的理解,其核心功能是将视频中的多模态信息转录成详细的文本脚本,方便大语言模型理解视频内容。
2025-02-20
怎么让AI识别对话,并生成结构化数据存储到我的软件系统里
要让 AI 识别对话并生成结构化数据存储到软件系统里,可以参考以下方法: 1. 基于结构化数据来 RAG:如果原始数据本身就是结构化、标签化的,不必将这部分数据做向量化。结构化数据的特点是特征和属性明确,可用有限标签集描述,能用标准查询语言检索。以餐饮生活助手为例,流程包括用户提问、LLM 提取核心信息并形成标准查询、查询结构化数据、LLM 整合回复。 2. 利用 Coze 平台设计 AI 机器人:创建好 Bot 后,从“个人空间”入口找到机器人,进行“编排”设计。Coze 平台常用的概念和功能包括提示词(设定 Bot 身份和目标)、插件(通过 API 连接集成服务)、工作流(设计多步骤任务)、触发器(创建定时任务)、记忆库(保留对话细节,支持外部知识库)、变量(保存用户个人信息)、数据库(存储和管理结构化数据)、长期记忆(总结聊天对话内容)。设计 Bot 时要先确定目的,比如“AI 前线”Bot 的目的是作为 AI 学习助手,帮助职场专业人士提升在人工智能领域的知识和技能,并提供高效站内信息检索服务。 注:Coze 官方使用指南见链接:https://www.coze.cn/docs/guides/welcome ,遇到疑问也可查阅该指南。
2025-02-18
通过飞书机器人与 Coze 搭建的智能体进行对话
通过飞书机器人与 Coze 搭建智能体进行对话,实现跨平台的稍后读收集与智能阅读计划推荐,具体步骤如下: 1. 前期准备: 设计 AI 稍后读助手的方案思路,包括简化“收集”(实现跨平台收集功能,支持电脑(web 端)、安卓、iOS 多端操作,输入 URL 完成收集,借鉴微信文件传输助手通过聊天窗口输入)、自动化“整理入库”(自动整理每条内容的关键信息,支持跨平台查看)、智能“选择”推荐(根据收藏记录和阅读兴趣生成阅读计划)。 2. 逐步搭建 AI 智能体: 经过配置得到两个可用工作流(整理入库、选择内容),将其编排为完整智能体。 配置过程包括创建 Bot、填写 Bot 介绍、切换模型为“通义千问”、把工作流添加到 Bot 中、新增变量{{app_token}}、添加外层 bot 提示词,完成后可在「预览与调试」窗口与智能体对话并使用全部功能。
2025-02-16
豆包、DeepSeek、ChatGPT分别有些什么功能用于解决用户整理对话的需求
以下是豆包、DeepSeek、ChatGPT 在解决用户整理对话需求方面的功能: ChatGPT: 1. 内容生成:可以生成文章、故事、诗歌、歌词等内容。 2. 聊天机器人:作为聊天机器人的后端,提供自然的对话体验。 3. 问答系统:为用户提供准确的答案。 4. 文本摘要:生成文本的摘要或概述。 5. 机器翻译:在这方面有不错的表现。 6. 群聊总结:能够对群聊内容进行总结。 7. 代码生成:生成代码片段,帮助开发者解决编程问题。 8. 教育:帮助学生解答问题或提供学习材料。 9. 浏览器插件:如 webpilot 。 10. PDF 对话:通过相关网站实现与 PDF 的对话。 11. PPT 生成:协助高效制作 PPT 。 12. 音视频提取总结:通过特定网站进行总结。 13. 播客总结:通过特定网站完成总结。 14. 生成脑图:通过相关网站生成。 关于豆包和 DeepSeek 在解决用户整理对话需求方面的功能,上述内容中未提及。
2025-02-13
与deepseek高效对话的五个黄金法则
以下是与 Deepseek 高效对话的五个黄金法则: 1. 像教实习生:别指望它读心术,要给明确“操作手册”。 亮身份(就像相亲自我介绍):说清角色(新人/专家)、处境(紧急任务/长期规划)、特殊需求(老板的喜好/公司制度)。例如,错误示范是“帮我写个方案”,正确示范是“我是刚入职的行政专员,要给 50 人团队策划元旦团建,预算人均 200 元”。 派任务(像教小朋友做家务):明确要做什么、范围多大、重点在哪、要几个结果。例如,错误示范是“分析下市场”,正确示范是“请对比蜜雪冰城和茶百道最近 3 个月的新品策略,找出年轻人最爱的 3 个创新点”。 立规矩(像点菜提要求):包括时间限制、资源条件、雷区预警、特殊偏好。例如,请 AI 当健身教练,正确示范是“我是 996 上班族,每天最多锻炼 30 分钟,家里只有瑜伽垫,帮我制定减脂计划,不要深蹲伤膝盖”。 定格式(像下单选规格):根据需求选择文档类(PPT 页数、报告部分)、数据类(表格或图表)、创意类(小红书风格或知乎体)等格式。例如,做会议纪要,正确示范是“用表格呈现,左边列讨论主题,右边分决策事项/负责人/截止时间三栏,最后用红色标出待确认事项”。 2. 像拼乐高:复杂任务拆成小模块,逐个击破。 3. 像打乒乓球:有来有往多回合,好答案都是改出来的。 4. 下次和 AI 对话前,先花 30 秒填这个 checklist: 我说清自己身份了吗? 任务目标够具体吗? 特殊要求列全了吗? 要什么格式交代了吗? 留好修改的余地了吗? 5. 一个提示词,让 DeepSeek 的能力更上一层楼: 效果对比:用 Coze 做了个小测试,大家可以对比看看。 如何使用: 搜索 www.deepseek.com,点击“开始对话”。 将装有提示词的代码发给 Deepseek。 认真阅读开场白之后,正式开始对话。 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担。 通过提示词文件,让 DeepSeek 实现同时使用联网功能和深度思考功能。 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性。 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改。 用 XML 来进行更为规范的设定,而不是用 Lisp(对我来说有难度)和 Markdown(运行下来似乎不是很稳定)。 完整提示词。 特别鸣谢:李继刚的【思考的七把武器】在前期为提供了很多思考方向;Thinking Claude 是项目最喜欢使用的 Claude 提示词,也是设计 HiDeepSeek 的灵感来源;Claude 3.5 Sonnet 是最得力的助手。 掌握这套方法,您会突然发现:原来 AI 这么听话!从此刻开始,告别无效对话,让您的每个问题都换来实实在在的干货。
2025-02-13
怎么与多个pdf进行对话
要与多个 PDF 进行对话,可以考虑使用以下方法和工具: 1. ChatDOC:这是一个 AI 文档阅读助手,能够在数秒内总结长文档、解释复杂概念和查找关键信息。它具有以下优势: 可靠性和准确性高,在所有 ChatPDF 类产品中居首。 精通表格理解,选择表格或文本可立即获取详细信息。 支持多文档对话,不受每个文档页数限制。 每个回答均可溯源至原文,有原文档中的直接引用支持。 支持多种文档类型,包括扫描件、ePub、HTML 和 docx 格式文档。 2. AskYourPDF Research Assistant:可以与多个文件聊天,生成带有引文的文章,分析和生成论文的参考文献,创建文件的知识库并与之交互等。 在进行互动式问答时,需要注意以下几点: 1. 对于更新的数据或最新出版的书籍、报告和文件,ChatGPT 的知识库可能无法提供答案。 2. 如果有现成的 PDF,建议通过 CHATDOC 网站进行互动式问答。 3. 提问时应遵循一定的模板,例如: 输入信息:向 ChatGPT 提供要查询的书籍、报告或文件的详细信息,包括书籍的书名、作者、出版日期、出版社,报告的时间、主题,文件的名称等,提供越详细越能获得准确答案。 提出问题:例如询问书籍中提到的某些方面、原则、方法,报告中行业的增长趋势,对报告或书籍的概括、主要观点等。
2025-02-11
复杂推理的产品,给模型灌什么能够更好训练推理能力?以及怎么优化模型的推理准确度?
以下是一些能够更好训练模型推理能力以及优化推理准确度的方法: 1. OpenAI 的推理模型通过强化学习进行训练,在训练过程中,模型学会在回答前思考,产生长链的思维过程,并不断尝试不同策略,识别错误,从而能够遵循特定的指导方针和模型政策,提供更有用的回答,避免产生不安全或不适当的内容。 2. 蒙特卡洛树搜索(MCTS)对推理模型有积极影响,例如在数学定理证明中,能探索非确定性证明路径,将解决 IMO 几何题的耗时从传统方法的 30 分钟降至 90 秒;在多跳问答系统中,结合 MCTS 的模型在 HotpotQA 数据集上准确率提升 12%,因其能回溯验证中间推理步骤。 3. 动态知识融合机制方面,传统基于规则的推理无法处理模糊知识,而 MCTS 增强方案在医疗诊断中可将误诊率从纯规则引擎的 23%降至 9%。 4. 资源分配优化方面,在逻辑谜题求解任务中,MCTS + Transformer 能达到 85%准确率且耗时 3 秒,而纯 Transformer 为 62%准确率且耗时 8 秒;在法律条文推导任务中,MCTS + Transformer 有 92%合规性且耗时 5 秒,纯 Transformer 为 88%合规性且耗时 2 秒。 OpenAI 于 9 月 12 日发布的新模型 o1 旨在实现通用复杂推理,通过强化学习和思维链的方式提升推理能力,尤其在数学和编程领域表现出色,但用户反馈显示其实际表现与宣传存在差距,成本高于 GPT4o,且在某些任务上优势不明显,OpenAI 仍在探索如何优化模型的推理性能。
2025-02-21
偏推理型的内容,怎么提升模型的推理深度及准确度?
提升模型推理深度及准确度的方法包括以下几个方面: 1. 扩大模型规模:随着模型规模的扩大,其推理能力会得到提升,类似于 AlphaGo 或 AlphaZero 的工作方式,通过蒙特卡罗推演来修改评估函数,从而提高推理精度。 2. 引入多模态学习:引入图像、视频和声音等多种模式将极大地改变模型的理解和推理能力,特别是在空间理解方面。多模态模型可以通过更多的数据和更少的语言来进行学习。 3. 优化训练方法: RLHF(Reinforcement Learning from Human Feedback):模型在这个过程中的目标是最大程度地获得人类的认可,通过奖励模型来衡量。 结合不同的推理能力提高途径:将生成不同的思维链(CoT)并选择有效路径的方法,与在部署时用大量计算进行推理的方法结合起来。 4. 改进模型结构和算法: 规模和算法是科技进步的关键因素,数据和计算规模具有决定性作用。 在模型之上添加启发式方法或增加模型本身的规模。 此外,Hinton 还提到了一些相关观点,如最合理的模型是将符号转换成大向量并保留符号的表面结构,大型语言模型通过寻找共同的结构来提高编码效率,以及即使训练数据中有错误,大型神经网络也具有超越训练数据的能力等。
2025-02-21
现在市面上的AI大模型
以下是关于市面上的 AI 大模型的相关知识: 1. 概念:生成式 AI 生成的内容称为 AIGC。 2. 概念与关系: AI 即人工智能。 机器学习是电脑找规律学习,包括监督学习、无监督学习、强化学习。 监督学习使用有标签的训练数据,目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习的数据没有标签,算法自主发现规律,经典任务如聚类。 强化学习从反馈中学习,以最大化奖励或最小化损失,类似训小狗。 深度学习是一种参照人脑有神经网络和神经元的方法(因层数多而称为深度),神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 是大语言模型,对于生成式 AI,生成图像的扩散模型不是大语言模型;对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 3. 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出 Transformer 模型,它完全基于自注意力机制处理序列数据,不依赖于循环神经网络或卷积神经网络。
2025-02-20
你使用了哪些大模型
以下是关于大模型的相关信息: 大模型的定义:大模型的“大”指用于表达 token 之间关系的参数多,主要是模型中的权重(weight)与偏置(bias),例如 GPT3 拥有 1750 亿参数。以 Transform 为代表的大模型采用自注意力(Selfattention)机制来学习不同 token 之间的依赖关系,生成高质量 embedding。数字化便于计算机处理,为让计算机理解 Token 之间的联系,需把 Token 表示成稠密矩阵向量,这个过程称为 embedding,常见算法有基于统计的 Word2Vec、GloVe,基于深度网络的 CNN、RNN/LSTM,基于神经网络的 BERT、Doc2Vec 等。 国内部分大模型: 北京:百度(文心一言)https://wenxin.baidu.com 、抖音(云雀大模型)https://www.doubao.com 、智谱 AI(GLM 大模型)https://chatglm.cn 、中科院(紫东太初大模型)https://xihe.mindspore.cn 、百川智能(百川大模型)https://www.baichuanai.com/ 上海:商汤(日日新大模型)https://www.sensetime.com/ 、MiniMax(ABAB 大模型)https://api.minimax.chat 、上海人工智能实验室(书生通用大模型)https://internai.org.cn 部分大模型的特点:在聊天状态下能生成 Markdown 格式的有智谱清言、商量 Sensechat、MiniMax;目前不能进行自然语言交流的有昇思、书生;受限制使用的有 MiniMax;特色功能方面,昇思能生图,MiniMax 能语音合成。 大模型的动手实验:由于作者使用的是 macOS 系统,因此采用 GGML 量化后的模型。比较有名的相关项目有 ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++ 中下载模型,3G 到 7G 不等。此外,llama.cpp 还提供了 WebUI 供用户使用,首先启动 server,它默认监听 8080 端口,打开浏览器就可以对话。
2025-02-20
养老场景实时健康监测与风险预警在技术上怎么实现,用AI大模型实现,请给出一个可行的方案
以下是一个利用 AI 大模型实现养老场景实时健康监测与风险预警的可行方案: 首先,需要明确相关的概念和技术名词。AI 即人工智能,机器学习是电脑找规律学习,包括监督学习、无监督学习和强化学习。监督学习是基于有标签的训练数据,学习输入和输出之间的映射关系,包括分类和回归。无监督学习是在无标签数据中自主发现规律,例如聚类。强化学习是从反馈中学习以最大化奖励或最小化损失,类似训小狗。深度学习参照人脑,具有神经网络和神经元,因层数多被称为深度,神经网络可用于多种学习方式。生成式 AI 能生成文本、图片、音频、视频等内容形式,LLM 是大语言模型,生成图像的扩散模型不属于大语言模型,像谷歌的 BERT 模型可用于语义理解,如上下文理解、情感分析、文本分类。 在技术里程碑方面,2017 年 6 月谷歌团队发表的《Attention is All You Need》论文首次提出了 Transformer 模型,其完全基于自注意力机制处理序列数据,不依赖循环神经网络或卷积神经网络。 对于养老场景的实时健康监测与风险预警,可利用传感器收集老人的生理数据,如心率、血压、血糖等。这些数据通过物联网传输到服务器,利用深度学习算法对数据进行分析和处理。例如,使用基于 Transformer 模型的大模型,对历史健康数据和当前实时数据进行学习和分析,建立老人的健康模型。通过与正常健康指标的对比,及时发现异常情况,并结合无监督学习中的聚类算法,对不同健康状况的老人进行分类,以便提供个性化的预警和建议。同时,利用强化学习不断优化模型的预警准确性和及时性。 总之,通过整合传感器数据采集、物联网传输、深度学习算法分析和模型优化等环节,借助 AI 大模型实现养老场景的实时健康监测与风险预警。
2025-02-20
大模型和小模型区别是什么?为什么大模型有幻觉,小模型没有?
大模型和小模型的区别主要体现在以下几个方面: 1. 规模和参数:大模型通常具有更多的参数和更复杂的架构,而小模型相对规模较小。 2. 能力和性能:在处理自然语言等任务时,大模型往往表现出更强的能力,例如更准确的理解和生成能力。 3. 应用场景:大模型适用于通用的、复杂的任务,小模型则更适合特定的、简单的场景。 关于大模型存在幻觉而小模型没有的原因: 1. 工作原理:大模型基于统计模型预测生成内容,通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案。 2. 数据局限性:大模型的知识完全源于其训练数据,可能存在过时、不准确或不完整的信息。 3. 不可预测性:大模型的输出结果具有不可预测性,而小模型相对更稳定和可预测。
2025-02-20
移动端自动化测试框架
很抱歉,目前知识库中没有关于移动端自动化测试框架的相关内容。但一般来说,常见的移动端自动化测试框架有 Appium、Espresso、XCUITest 等。Appium 支持多种移动平台和编程语言;Espresso 是 Android 平台的专用框架,具有高效和稳定的特点;XCUITest 则是用于 iOS 平台的测试框架。您可以根据您的具体需求和项目情况选择适合的框架。
2025-02-15
我可以用哪些工具让AI生成好看的移动端UI界面设计?
以下是一些可以让 AI 生成好看的移动端 UI 界面设计的工具及相关方法: 1. Midjourney: 是目前较容易上手的工具,适合新手入门。 对于 UI/UX 设计师,能加快设计流程,在主体、配色、风格等方向探索 AI 在设计中的应用。 生成 UI 设计图的指令:如果没想好要输入哪些指令,可以先用指令模板「ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble」,把里面的“类型”替换成您想设计的产品的关键词描述(英文),就能生成想要的 UI 设计图。例如,出行类关键词可以是“距离、车费、费用结算、优惠金额、地图”等;餐饮类关键词可以是“介绍咖啡的特色、口味、咖啡豆产地、价格”等;运动类关键词可以是“卡路里、步数、距离、某种运动”等描述。 如果想指定生成某个页面(首页、登录页等),只需要再加一段页面指令描述,例如「landing page、Profile Page」。 产出的设计图视觉效果不错,更适合在 APP 设计的初始阶段,如头脑风暴和风格探索等过程中,为设计师提供更多灵感和创意。 2. Coze: 可以直接使用 Coze 的 API 对接前端 UI 框架,将工作流逻辑集中在工程模板端,实现前后端分离的处理方式。 也可以直接调用大模型 API,并通过前端代码实现提示词处理和逻辑控制,将交互流程完全放入前端代码中。 实现文件上传可通过 Coze 的。 搭建 Demo 最简单的方式是首先绘制草图,然后借助多模态 AI 工具(如 GPT/Claude)生成初步的前端结构代码。前端开发语言包括用于构建网页基础框架、定义整体页面结构的 HTML;负责网页布局样式美化、使页面视觉效果更优美的 CSS;实现交互逻辑,如信息处理、网络请求及动态交互功能的 JavaScript。
2025-01-21
移动设备下,可集成到 iOS/anrdroid 的 app 中 的 tts 框架有哪些?
目前常见的可集成到 iOS 和 Android 移动设备 App 中的 TTS(TexttoSpeech,文本转语音)框架有以下几种: 1. Google TexttoSpeech:在 Android 平台上较为常用,提供了多种语言和声音选择。 2. Apple 的 Speech Synthesis:专为 iOS 开发,具有高质量的语音合成效果。 3. Microsoft Azure Cognitive Services Speech:支持多种平台,包括 iOS 和 Android,提供丰富的语音选项和功能。 但具体选择哪种框架,还需要根据您的应用需求、开发技术栈以及预算等因素来综合考虑。
2024-08-23
详细介绍一个移动端-图片视觉处理的方法,如试卷拍照去除书写笔迹
移动端图片视觉处理方法在试卷拍照去除书写笔迹方面可以采用图像处理和机器学习技术的结合。以下是一个详细的方法介绍: 图像预处理: 图像去噪:使用去噪算法(如高斯滤波、中值滤波)去除图像中的噪声。 图像增强:通过增强算法(如直方图均衡化、对比度增强)提升图像的清晰度和对比度。 图像分割: 使用图像分割算法将试卷图像中的书写笔迹和背景分离。常用的分割算法包括阈值分割、边缘检测和基于区域的分割方法。 文字检测: 在分割后的图像中,使用文字检测算法(如基于深度学习的文本检测模型)识别出试卷上的文字区域。 文字识别: 对检测到的文字区域进行文字识别,将文字内容转换为计算机可处理的文本数据。常用的文字识别技术包括基于深度学习的端到端文本识别模型和传统的OCR(Optical Character Recognition)技术。 后处理: 根据需求进行后处理,如去除残余的噪点、填补文字区域的空白等。 机器学习模型训练(可选): 如有足够的数据,可以采用机器学习技术训练模型,通过学习样本中的书写笔迹特征来自动去除试卷上的笔迹。 优化算法: 对整个处理流程进行优化,提高处理速度和准确度。可以采用并行计算、硬件加速等方法提升算法的效率。 移动端集成: 将设计好的算法和模型集成到移动应用程序中,以实现试卷拍照去除书写笔迹的功能。可以使用移动端开发框架(如iOS的Core ML、Android的TensorFlow Lite)来实现模型的部署和调用。 通过以上方法,可以在移动端实现对试卷拍照图像进行书写笔迹去除的功能,提高试卷的清晰度和可读性。
2024-03-20