直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

小模型场景落地路线图

回答

实施小模型(如轻量级机器学习模型或嵌入式AI模型)的场景落地需要精细的规划和执行。以下是一个详细的路线图,涵盖从概念到部署的各个阶段。

路线图

1. 需求分析

  • 目标定义: 明确项目的目标和期望结果,确定需要解决的问题和应用场景。
  • 可行性研究: 评估技术可行性、市场需求和成本效益。
  • 需求收集: 收集和分析来自利益相关者的需求,明确模型功能和性能指标。

2. 数据准备

  • 数据收集: 收集相关数据,这可以来自数据库、传感器、API等。
  • 数据清洗: 处理缺失值、异常值和重复数据。
  • 数据标注: 对数据进行分类和标注,以便用于监督学习模型。
  • 数据分割: 将数据分为训练集、验证集和测试集。

3. 模型选择

  • 模型探索: 调研和选择适合项目需求的小模型,如TinyML模型、MobileNet、SqueezeNet等。
  • 预训练模型: 考虑使用预训练模型进行微调,以节省时间和计算资源。

4. 模型训练

  • 训练环境搭建: 配置所需的硬件和软件环境(如TensorFlow Lite、PyTorch Mobile)。
  • 模型训练: 在训练集上训练模型,并使用验证集进行调优。
  • 超参数调优: 通过网格搜索或贝叶斯优化等方法优化模型超参数。

5. 模型优化

  • 模型压缩: 采用剪枝、量化等技术减少模型大小和计算量。
  • 模型精简: 删除不必要的特征和层,进一步简化模型结构。
  • 模型加速: 使用硬件加速(如TPU、GPU)优化模型推理速度。

6. 部署准备

  • 平台选择: 确定模型的部署平台(如移动设备、嵌入式系统、边缘设备)。
  • 代码整合: 将模型集成到应用程序或设备固件中。
  • 性能测试: 在目标环境中测试模型的性能,包括速度、内存占用和功耗等。

7. 模型部署

  • 部署环境搭建: 搭建生产环境,确保与开发环境一致。
  • 持续集成: 设置CI/CD管道,确保模型的持续集成和部署。
  • 安全措施: 实施必要的安全措施,保护模型和数据的隐私与安全。

8. 监控与维护

  • 监控系统: 部署监控系统,实时跟踪模型的性能和使用情况。
  • 模型更新: 定期更新和重新训练模型,以应对数据分布变化和新需求。
  • 用户反馈: 收集用户反馈,优化模型和应用程序。

9. 文档与培训

  • 文档编写: 编写详细的技术文档和用户手册。
  • 培训支持: 为使用和维护模型的人员提供培训和支持。

工具和技术

  • 数据处理: Pandas, NumPy, OpenCV
  • 模型训练: TensorFlow, PyTorch, scikit-learn
  • 模型优化: TensorFlow Lite, ONNX, TensorRT
  • 部署平台: Docker, Kubernetes, AWS Lambda, GCP Functions
  • 监控工具: Prometheus, Grafana, ELK Stack

实例项目

智能家居设备中的语音识别

  • 需求分析: 在智能家居设备中实现语音命令识别。
  • 数据准备: 收集和标注家居环境中的语音命令数据。
  • 模型选择: 使用MobileNet模型进行语音识别。
  • 模型训练: 在收集的语音数据上训练模型,并进行超参数调优。
  • 模型优化: 使用量化技术将模型大小减小到适合嵌入式设备。
  • 部署准备: 将模型集成到智能家居设备的固件中。
  • 模型部署: 在生产环境中部署,并进行性能测试和优化。
  • 监控与维护: 实时监控语音识别的性能,收集用户反馈进行改进。

通过上述路线图,开发团队可以系统地实现小模型在不同场景下的落地,从而确保模型的高效性和实用性。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

周鸿祎免费课AI系列第一讲

还有最后一个,我觉得大模型道路之三,是加速场景落地,2023年的重点是大模型本身,大模型光做一个聊天机器人是没有意义的,在企业内部你光跟机器人聊天,聊得最多,它跟你的业务系统无法融合,跟你的应用无法结合,还是没有用。所以,2024年我觉得在场景应用,场景应用除了To B的场景,很多传统的To C的场景都值得重做一遍。大家想想,苹果肯定要把它的手机场景重塑一遍,微软把它的Office365,浏览器、Bing搜索重塑了一遍,所以我讲的不是加持,是重塑。你要重新思考,如果我有一个专有大模型,我这个大模型怎么改变我的功能和用户体验。所以,我很赞同国际上一个公司说的话,我先找场景,场景找好了,再训一个自己的大模型。

周鸿祎免费课AI系列第一讲

还有最后一个,我觉得大模型道路之三,是加速场景落地,2023年的重点是大模型本身,大模型光做一个聊天机器人是没有意义的,在企业内部你光跟机器人聊天,聊得最多,它跟你的业务系统无法融合,跟你的应用无法结合,还是没有用。所以,2024年我觉得在场景应用,场景应用除了To B的场景,很多传统的To C的场景都值得重做一遍。大家想想,苹果肯定要把它的手机场景重塑一遍,微软把它的Office365,浏览器、Bing搜索重塑了一遍,所以我讲的不是加持,是重塑。你要重新思考,如果我有一个专有大模型,我这个大模型怎么改变我的功能和用户体验。所以,我很赞同国际上一个公司说的话,我先找场景,场景找好了,再训一个自己的大模型。

周鸿祎免费课AI系列第一讲

大模型会两个极端,一个极端是越做越大,一个极端是越做越小。这里的小模型是个不准确的说法,大跟小,都是对的。所谓小模型就是“小参数的、小数据”的大模型,它的架构是大模型,但是它的规模比较小。比如说,英伟达推出Chat with RTX,大模型在终端上跑,像三星对苹果的刺激,没有人评价这个事儿,但是这个事儿很重要。现在手机的算力已经过剩了。如果手机就给大家刷视频,玩游戏,实际上手机的算力是过剩的。所以,手机上现在已经能,刚才讲了Mobile LLama的版本不到1B的参数量已经能在手机上跑。这个小模型的概念是什么?我和大家讲两点:它不是和OpenAI去比全功能,它往往是一个垂直模型,是个专业模型。它不是用在最高精尖的领域,比如苹果,让Siri更好地理解人的讲话,根本不需要GPT4,甚至GPT3.5都不需要,一个小模型就完全可以来胜任。

其他人在问
根据Python实验内容(包括实验场景和实验内容)和参考资料链接,如何优化prompt,以完成程序?
以下是一些优化 prompt 以完成程序的建议: 1. 对于算术推理相关的程序,若思维链(及生成的方程式)存在正确但模型执行算术运算错误的情况,可添加一个 Python 程序作为外部计算器(使用 Python 的 eval 函数)处理生成的思维链中的所有方程式。当思维链中包含多个方程式时,通过字符串匹配将外部计算器的结果从一个方程式传递到下一个方程式,以提高思维链提示在大多数任务上的性能。 2. 在涉及迷宫生成的程序中,若生成的迷宫存在边未封好等问题,可调整提示词。若对复杂度不满意,也可提出并进行调整。 3. 在涉及图像生成的程序中,对于提示词编写,应遵循不改变梗图、虚构角色起源、未出现人物等的原则,保持原始提示的意图并优先保证质量。不创建任何具有冒犯性的图像。对于可能存在偏见的场景,确保如性别和种族等关键特征以无偏见的方式指定。对于包含特定人物或名人的提示词,需进行适当修改,以通用描述替代,除非其作为图像中的文本出现。提示词应详细、客观地描述图像的每个部分,思考描述的最终目标并进行推断以生成满意的图像。
2024-11-22
AI在企业落地的场景或案例
以下是一些 AI 在企业落地的场景或案例: 企业运营方面:包括日常办公文档材料的撰写整理、营销对话机器人的应用、市场分析、销售策略咨询,以及法律文书起草、案例分析、法律条文梳理和人力资源的简历筛选、预招聘、员工培训等。 教育领域:协助评估学生学习情况,为职业规划提供建议,针对学生情况以及兴趣定制化学习内容,论文初稿搭建及论文审核,帮助低收入国家/家庭通过 GPT 获得平等的教育资源。 游戏/媒体行业:定制化游戏,动态生成 NPC 互动、自定义剧情、开放式结局,出海文案内容生成、语言翻译及辅助广告投放和运营,数字虚拟人直播,游戏平台代码重构,AI 自动生成副本。 零售/电商领域:舆情、投诉、突发事件监测及分析,品牌营销内容撰写及投放,自动化库存管理,自动生成或完成 SKU 类别选择、数量和价格分配,客户购物趋势分析及洞察。 金融/保险行业:个人金融理财顾问,贷款信息摘要及初始批复,识别并检测欺诈活动风险,客服中心分析及内容洞察。 在企业中建构人工智能的案例研究包括: 智能扬声器:需要探测触发词或唤醒词、进行语音识别、意图识别,并执行相关程序。但智能音箱公司因需对每个用户需求单独编写程序而花费大量资金教育客户,这是其面临的困境。 自动驾驶汽车:包括汽车检测(使用监督学习,需多个方位的摄像头或传感器)、行人检测(使用相似技术)、运动规划(输出驾驶路径和速度)。 人工智能团队的角色示例有: 软件工程师:负责软件编程工作,在团队中占比 50%以上。 机器学习工程师:创建映射或算法,搜集和处理数据以训练神经网络或深度学习算法。 机器学习研究员:开发机器学习前沿技术,可能发表论文或专注研究。 应用机器学习科学家:从学术文献或研究文献中寻找前沿技术来解决问题。 数据科学家:检测和分析数据背后的意义,并向团队展示结论。 数据工程师:整理数据,确保数据安全、易保存和读取。 AI 产品经理:决定用 AI 做什么,判断其可行性和价值。
2024-11-20
打印场景下格式转换的需求点
在打印场景下,格式转换的需求点主要包括以下方面: 1. 不同文本类型的转换,例如将俚语翻译成商务书信。 2. 不同格式之间的转换,如 ChatGPT 擅长的从 JSON 到 HTML、XML、Markdown 等格式的转换。在提示中需描述输入和输出格式,例如将 Python 字典从 JSON 转换为带有列标题和标题的 HTML 表格,并使用相关函数显示 HTML 响应。 3. 对于卡牌生成器的搭建,在为卡牌添加说明性文字时,涉及到文字图层的处理。叠图功能只允许两个图层叠放,所以对文字图层要进行格式转换。具体包括: 先对“card_description”的输出按索引序号奇偶性进行分列。 由于叠图只支持传入图像的 url(字符串格式),需将分列后的两个 Array<Object>结构“打破”,提取图像链接并重组为字符串列表 Array<String>。 若分列时原 Array<Object>中元素个数为奇数个,会导致分列后两个列表元素数量不同。在格式转换过程中,需比较两个列表长度,若不同则用事先准备好的图像 url 扩展较短的列表,以保证叠图顺利进行。
2024-11-20
AI 在股票交易行业的落地场景有哪些
AI 在股票交易行业的落地场景主要包括以下方面: 1. 市场分析与预测:利用大数据和机器学习算法,对市场趋势、宏观经济数据、公司财务数据等进行分析和预测,为投资决策提供参考。 2. 风险评估与管理:通过模型评估投资组合的风险水平,及时发现潜在风险并采取相应的风险管理措施。 3. 交易策略优化:基于历史交易数据和市场情况,优化交易策略,提高交易效率和盈利能力。 4. 智能投顾:为投资者提供个性化的投资建议和资产配置方案。 5. 欺诈检测:识别和防范股票交易中的欺诈行为,保障交易的安全性和公正性。
2024-11-18
ai的落地场景应用
以下是 AI 的一些落地场景应用: 1. 医疗保健: 医学影像分析:用于分析医学图像辅助诊断疾病。 药物研发:加速药物研发,识别潜在药物候选物和设计新治疗方法。 个性化医疗:分析患者数据提供个性化治疗方案。 机器人辅助手术:控制手术机器人提高手术精度和安全性。 2. 金融服务: 风控和反欺诈:识别和阻止欺诈行为,降低金融机构风险。 信用评估:评估借款人信用风险,帮助做出贷款决策。 投资分析:分析市场数据辅助投资决策。 客户服务:提供 24/7 服务并回答常见问题。 3. 零售和电子商务: 产品推荐:分析客户数据推荐可能感兴趣的产品。 搜索和个性化:改善搜索结果和提供个性化购物体验。 动态定价:根据市场需求调整产品价格。 聊天机器人:回答客户问题并解决问题。 4. 制造业: 预测性维护:预测机器故障避免停机。 质量控制:检测产品缺陷提高质量。 供应链管理:优化供应链提高效率和降低成本。 机器人自动化:控制工业机器人提高生产效率。 5. 交通运输:暂未提及具体应用场景。 此外,还有以下一些具体的应用: 1. 辅助创作与学习:如 AI 智能写作助手、语言学习助手、诗歌创作助手、书法字体生成器、漫画生成器等。 2. 推荐与规划:包括 AI 图像识别商品推荐、美食推荐平台、旅游行程规划器、时尚穿搭建议平台、智能投资顾问等。 3. 监控与预警:如 AI 宠物健康监测设备、家居安全监控系统、天气预报预警系统、医疗诊断辅助系统等。 4. 优化与管理:涉及办公自动化工具、物流路径优化工具、家居清洁机器人调度系统、金融风险评估工具等。 5. 销售与交易:有 AI 艺术作品生成器、书法作品销售平台、摄影作品销售平台、汽车销售平台、房地产交易平台等。 在“AI + 汽车”领域: AI 营销赛道: AI 辅助“市场营销”和“新媒体运营”,包括汽车热点营销、用户画像预测、营销内容创作、内容审核、用户评论回复,以及“一键生图”。 AI 提升“销售体验”,引导“留资或下单”,如智能“试驾”、“金牌销售”智能导购、“互动游戏”智能导购。 AI 提升“销售能力”,基于汽车销售场景自动出题,可采用多种形式,如选择题、对话或情景模拟。
2024-11-18
AI在会计岗位落地的场景
AI 在会计岗位落地的场景包括以下方面: 1. 预测:生成式 AI 能够帮助编写 Excel、SQL 和 BI 工具中的公式和查询,实现分析自动化,还能发现模式,从更广泛、更复杂的数据集中为预测建议输入,并提供适应模型的建议,为公司决策提供依据。 2. 报告:生成式 AI 可以自动创建文本、图表、图形等内容,并根据不同示例调整报告,无需手动整合数据和分析到外部和内部报告中。 3. 会计和税务:会计和税务团队在咨询规则和应用方面,生成式 AI 可以帮助综合、总结,并就税法和潜在扣除项提出可能的答案。 4. 采购和应付账款:生成式 AI 能够帮助自动生成和调整合同、采购订单和发票以及提醒。 5. RPA 方面:RPA 是流程自动化机器人,可替代电脑办公中的重复有逻辑工作,为企业降本增效。在财务领域,可用于开票、网银流水下载等。 6. 税务工作:在金税四期背景下,利用引刀 AP 创建网页实现智能解答税务问题,结合飞书避免信息泄露和实现自动回复等。
2024-11-15
ai 语音,ai语音,ai 文转语音,有哪些成功的商业化落地项目吗
以下是一些成功的 AI 语音商业化落地项目: 语音合成(TTS)方面: :为所有人提供开放的语音技术。 :基于 AI 的语音引擎能够模仿人类语音的情感和韵律。 :基于 NLP 的最先进文本和音频编辑平台,内置数百种 AI 声音。 :使用突触技术和脑机接口将想象的声音转化为合成 MIDI 乐器的脑控仪器。 :为出版商和创作者开发最具吸引力的 AI 语音软件。 :使用户能够使用文本转语音技术生成播客。 :基于生成机器学习模型构建内容创作的未来。 :从网页仪表板或 VST 插件生成录音室质量的 AI 声音并训练 AI 语音模型。 :演员优先、数字双重声音由最新的 AI 技术驱动,确保高效、真实和符合伦理。 :将书面内容转化为引人入胜的音频,并实现无缝分发。 :专业音频、语音、声音和音乐的扩展服务。 (被 Spotify 收购):提供完全表达的 AI 生成语音,带来引人入胜的逼真表演。 :利用合成媒体生成和检测,带来无限可能。 :一键使您的内容多语言化,触及更多人群。 :生成听起来真实的 AI 声音。 :为游戏、电影和元宇宙提供 AI 语音演员。 :为内容创作者提供语音克隆服务。 :超逼真的文本转语音引擎。 :使用单一 AI 驱动的 API 进行音频转录和理解。 :听起来像真人的新声音。 :从真实人的声音创建逼真的合成语音的文本转语音技术。 :生成听起来完全像你的音频内容。 语音转录方面: :为聋人和重听者提供专业和基于 AI 的字幕(转录和说话人识别)。 :专业的基于 AI 的转录和字幕。 :混合团队高效协作会议所需的一切。 :音频转录软件 从语音到文本到魔法。 :99%准确的字幕、转录和字幕服务。 :为语音不标准的人群提供的应用程序。 :通过 AI 语音识别实现更快速、更准确的语音应用。 :会议的 AI 助手。 :让孩子们的声音被听见的语音技术。 :使用语音识别自动将音频和视频转换为文本和字幕的 SaaS 解决方案。 :实时字幕记录面对面小组会议中的发言内容。 :理解每个声音的自主语音识别技术。 :支持 35 多种语言的自动转录。 :端到端的边缘语音 AI,设备上的语音识别。
2024-11-19
AI 在早期创业需求验证和市场调研的落地应用有哪些
以下是 AI 在早期创业需求验证和市场调研的落地应用: 1. 辅助创作与学习:如 AI 智能写作助手帮助用户快速生成高质量文本;AI 语言学习助手、诗歌创作助手、书法字体生成器、漫画生成器等为用户的学习和创作提供支持。 2. 推荐与规划:包括 AI 图像识别商品推荐、美食推荐平台、旅游行程规划器、时尚穿搭建议平台、智能投资顾问等,根据用户的需求和偏好为其推荐合适的产品、服务或制定个性化的计划。 3. 监控与预警:如 AI 宠物健康监测设备、家居安全监控系统、天气预报预警系统、医疗诊断辅助系统等,实时监测各种情况并提供预警。 4. 优化与管理:涉及办公自动化工具、物流路径优化工具、家居清洁机器人调度系统、金融风险评估工具等,提高工作效率和管理水平。 5. 销售与交易:有 AI 艺术作品生成器、书法作品销售平台、摄影作品销售平台、汽车销售平台、房地产交易平台等,为各类产品和服务提供销售渠道。 对于中小企业利用人工智能(AI)进行转型中的创新产品和服务,特别是 AI 驱动的产品/服务开发,包括以下方面: 首先,探索基于 AI 的新产品或服务。通过开发基于 AI 的新产品或服务,创造新的市场机会和客户价值。调查和分析市场需求,探索 AI 技术在不同领域的应用潜力。鼓励团队进行创新思维,探索如何将 AI 技术融入新产品或服务中。开发 AI 驱动产品或服务的原型,并进行测试以验证其可行性和市场吸引力。例如,开发智能分析工具,帮助企业自动分析市场趋势;或创建 AI 辅助应用程序,如个性化健康指导应用。 其次,利用 AI 技术提升现有产品的智能化程度。通过集成 AI 功能,提升现有产品或服务的智能化水平和竞争力。识别现有产品或服务中可以通过 AI 技术优化的部分,如添加智能推荐、自动化流程等。利用 AI 改善用户界面和交互体验,使产品更加直观和易用。基于客户反馈和市场变化,不断迭代和更新 AI 集成的功能。例如,对于在线零售平台,可以通过集成 AI 来优化产品搜索和推荐算法,提供更精准的购物建议。 总之,这些 AI 应用为创业者提供了丰富的选择和广阔的发展前景,创业者可以根据自己的兴趣、技能和市场需求,选择适合自己的项目进行创业。同时,对 AI 产品经理要求懂得技术框架,不一定要了解技术细节,而是对技术边界有认知,最好能知道一些优化手段和新技术的发展。产品经理要关注的还是场景、痛点、价值。
2024-11-19
AI 在营销获客的落地应用有哪些
以下是 AI 在营销获客方面的落地应用: 1. 医疗行业: 疾病的诊断与预测。 药物研发。 个性化医疗。例如麻省理工学院利用 AI 发现新型广谱抗生素 Halicin。 2. 广告营销行业: 从初期的市场分析、中期的客户转化到后期的客户复购均可参与,为消费者提供更个性化、智能化和互动性强的营销体验。 对于广告图案的生成,可通过 AI+设计相关的 SOP 来提高效率。 降低内容制作成本并加速创意的实现过程。 具体案例: 亨氏使用番茄酱瓶的图像和类似标签来论证“这就是人工智能眼中‘番茄酱’的样子”。 雀巢使用维米尔画作的人工智能增强版来帮助销售其酸奶品牌。 Stitch Fix 服装公司使用 DALLE 2 根据客户对颜色、面料和款式的偏好创建服装可视化。 美泰使用该技术生成用于玩具设计和营销的图像。 3. 汽车行业: AI 辅助“市场营销”和“新媒体运营”,包括汽车+热点营销、用户画像预测、营销内容创作、内容审核、用户评论回复,以及“一键生图”符合营销要求。 AI 提升“销售体验”,引导“留资或下单”,如智能“试驾”促进“转化”、“金牌销售”智能导购、“互动游戏”智能导购。 AI 提升“销售能力”(专业知识/销售话术),基于汽车销售的各个场景和环节自动出题,用户答题后进行得分评估和给出建议。还可复制到其他学习类场景,增加“对话”或者“情景模拟”的形式开展,如 AI 扮演客户进行销售对练。
2024-11-18
学习大模型的路径
学习大模型的路径主要包括以下几个步骤: 1. 收集海量数据:就像教孩子成为博学多才的人需要让其阅读大量书籍、观看纪录片、与人交谈一样,对于大模型,要收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。 2. 预处理数据:如同为孩子整理学习资料,AI 研究人员需要清理和组织收集到的数据,包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段。 3. 设计模型架构:如同为孩子设计学习计划,研究人员要设计大模型的“大脑”结构,通常是一个复杂的神经网络,例如 Transformer 架构,这种架构擅长处理序列数据如文本。 4. 训练模型:如同孩子开始阅读和学习,大模型开始“阅读”提供的数据,通过反复尝试预测句子中的下一个词,不断重复这个过程,逐渐学会理解和生成人类语言。 此外,关于大模型的底层原理,计算机科学家/工程师以大脑神经元细胞结构为灵感,在计算机上利用概览模型实现对人脑结构的模仿,不过计算机的神经元节点更为简单,本质上只是进行一些加法和乘法运算而后输出。大模型内部如同人类大脑是一个混沌系统,即使是 OpenAI 的科学家也无法解释其微观细节。
2024-11-22
现在哪几家的大模型支持通过手机视频多模态实时交流?
以下几家的大模型支持通过手机视频多模态实时交流: 1. PandaGPT:能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA:引入了多分支跨模式 PT 框架,使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT:专门为视频对话设计,能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT:端到端、通用的 anytoany 多模态语言模型,支持图像、视频、音频、文本的自由输入输出。
2024-11-22
siri是不是使用大模型技术
Siri 目前并非使用大模型技术。苹果公司的 Siri 概念虽好,但由于技术限制,其表现未达到人工智能的水平,常被称为“人工智障”。不过,随着技术发展,未来可能会用大模型重新改造 Siri,将手机上的所有功能控制起来,使其成为真正的智能助理。例如,苹果公司在手机算力的芯片发展到能够支撑大模型上手机的情况下,可能会推出大模型的小数据量、专业的版本来替代 Siri。同时,苹果公司若 All in 手机,其大模型可能会是本地化的,以重视个人数据保护和隐私。
2024-11-21
sairi是不是使用大模型技术
Sora 是使用大模型技术的。周鸿祎认为 Open AI 训练这个模型会阅读大量视频,大模型加上 Diffusion 技术需要对世界进一步了解,学习样本以视频和摄像头捕捉到的画面为主。Sora 在训练数据上采用在原始尺寸上进行训练的策略,避免了传统 AI 对人为抽象的依赖。此外,Sora 还采用了一些数据预处理技术,如将视觉图块压缩成低维潜在表示,并将其排列成序列,注入噪声后输入扩散变换器的输入层,同时采用时空分块化来降低后续对时间信息建模的复杂性。这种对原始视频和图像特征的细腻处理标志着生成模型领域的重大进步。
2024-11-21
模型微调怎么解决多轮对话容易受到上轮对话的影响问题
在解决模型微调中多轮对话容易受到上轮对话影响的问题时: 对于多轮对话,现实中常伴随指代问题,如使用“它”“他们”“我们”等代词。若仅依据原始提问检索知识片段,可能导致结果不精确或无法检索到信息。同时,对模型回复内容的限制可能影响多轮对话流畅性甚至中断。 为提升对话系统性能和用户体验,需开发提示词解决多轮对话中的指代消解问题,确保模型能在连续交流中提供准确连贯回答。但由于“指代消解”需多轮对话完成,单次交互无法达成,所以要转换测试形式,先解决“指代消解”问题再进行下一轮答复。 首先准备指代消解所需提示词,这里使用的“指代消解”提示词是用 CoT 写出的思维链,列举不同推理情景,让模型适应并推理出需消解的代词,再根据结果重新组织问题。 接着复现指代消解步骤,如进行第一轮对话,提出问题“尼罗河是什么?”,系统召回相关知识片段并回复,然后开始指代消解。 另外,聊天模型通过一串聊天对话输入并返回生成消息输出。聊天格式虽为多轮对话设计,但对单轮任务也有用。会话通过 messages 参数输入,包含不同角色和内容的消息对象数组。通常会话先有系统消息设定助手行为,再交替使用用户和助手消息。当指令涉及之前消息时,包含聊天历史记录有帮助,若超出模型限制需缩减会话。
2024-11-21
企业做自己的小模型,需要用到的工具及工具背后的公司都有哪些?
企业做自己的小模型,可能会用到以下工具及背后的公司: 1. 在编排(Orchestration)方面,涉及的公司如 DUST、FIAVIE、LangChain 等,其提供的工具可帮助管理和协调各部分及任务,确保系统流畅运行。 2. 部署、可扩展性和预训练(Deployment, Scalability, & PreTraining)类别中,像 UWA mosaicm、NMAREL、anyscale 等公司提供的工具,有助于部署模型、保证可扩展性及进行预训练。 3. 处理上下文和嵌入(Context & Embeddings)的工具,相关公司有 TRUDO、Llamalndex、BerriAI 等,能帮助模型处理和理解语言上下文,并将词语和句子转化为计算机可理解的形式。 4. 质量保证和可观察性(QA & Observability)方面,例如 Pinecone、drant、Vald 等公司提供的工具,可确保模型表现并监控其性能和状态。 此外,还有以下工具和相关公司: 1. 图片生成 3D 建模工具,如 Tripo AI(由 VAST 发布)、Meshy、CSM AI(Common Sense Machines)、Sudo AI、VoxCraft(由生数科技推出)等。 企业还可能涉及具身智能、3D 眼镜、AI 绘本、AI 图书、学习机、飞书的多维表格、蚂蚁的智能体、Coze 的智能体、Zeabur 等云平台、0 编码平台、大模型(通义、智谱、kimi、deepseek 等)、编程辅助、文生图(可灵、即梦等)等方面,可能需要相应资质。
2024-11-20