直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

有没有数据清洗AI

回答

以下是关于数据清洗 AI 的相关内容:

数据清洗对于 AI 至关重要,就如同为 AI 做全面的“体检”,是预防 AI 幻觉的根本措施。

在 AI 领域,数据清洗就像医生为病人清除体内毒素一样,数据科学家会利用各种技术手段,对训练数据进行“清洗”,去除错误信息、补充缺失数据、修正不一致内容,并尽可能消除数据中的偏见。

在文档准备与预处理环节,例如构建 RAG 知识库时,会有数据清洗和去噪这一重要步骤,其目的包括清理无效数据以提高后续检索速度,以及统一数据格式便于后续处理和检索。

在大模型训练中,高质量的数据清洗和精细整理能将粗糙的数据打磨成有价值的资源。然而,在中国的 AI 创业生态中,高质量的数据处理服务较为稀缺,中文互联网数据质量相对较低,这给大模型的训练带来了挑战。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

【深度揭秘】AI 幻觉背后的技术真相与应对策略,探索人工智能的未来

正如我们在前文中提到的,低质量的训练数据是导致AI幻觉的重要原因。因此,为AI模型提供“干净”、“健康”的训练数据,就如同给AI做一次全面的“体检”,是预防AI幻觉的根本措施。数据清洗:就像医生为病人清除体内的毒素一样,数据科学家们会利用各种技术手段,对AI的训练数据进行“清洗”,去除错误信息、补充缺失数据、修正不一致的内容,并尽可能消除数据中的偏见。数据增强:为了让AI模型学习到更全面的知识,我们需要为它提供更多、更丰富的训练数据,就像给学生补充各种类型的练习题,帮助他们掌握不同的知识点和解题技巧。例如,在训练一个图像识别模型时,我们可以对已有的图像进行旋转、缩放、裁剪等操作,生成更多新的样本,从而提高模型的泛化能力。

这可能是讲 Coze 的知识库最通俗易懂的文章了

你要做AI知识库,你起码得有知识库吧,所以RAG的第一步就是准备知识库数据。当下技术下RAG的能力仍然以处理文本数据为主,例如PDF、在线云文档,EXCEL等等为了保证后续流程的质量,在文本准备时会有一个重要的环节,叫做文本的预处理。用专业的词汇叫做数据清洗和去噪。他的目的主要有两点清理无效的数据:删除无效、过时或者不相关的数据,提高后续的检索速度统一数据的格式:将不同的数据元转换成统一的格式,便于后续的处理和检索举个例子:当要整理书桌的时候,我们的第一步通常都是先将桌面上的垃圾给扔掉,然后才是整理桌面上的书本、电脑等物品。扔掉垃圾这一动作就是数据的清洗和去噪

中国大模型面临的真实问题:登顶路远,坠落一瞬

[title]中国大模型面临的真实问题:登顶路远,坠落一瞬[heading1]五、"你有我也有"接下来,让我们把目光转向数据这个同样关键的要素。在人工智能的世界里,数据就像是原油,而高质量的数据则是精炼后的汽油。虽然OpenAI训练大模型所用的中文数据也源自中国的互联网平台,但他们在数据处理上的额外努力,就像是将粗糙的原石打磨成璀璨的钻石。这种数据质量的提升,远非简单的数据标注工作所能企及,而是需要一支专业团队进行深度的数据清洗和精细整理。然而,在中国的AI创业生态中,高质量的数据处理服务就像是稀缺资源。在国内,数据获取的门槛相对较低,这看似是一个优势。然而,虽然数据获取容易,但高质量数据的获取却是另一回事。国内的大模型主要以中文数据为基础,这看似是一个自然的选择。但业内普遍认为中文互联网数据的质量相对较低。这种情况让人想起了信息论中的"垃圾进,垃圾出"原理。如果输入的数据质量不高,那么即使有最先进的算法,输出的结果也难以令人满意。这个现象在IT从业者的日常工作中得到了印证。当需要搜索专业信息时,他们往往会首选Google、arXiv或Bing等国际平台,而不是国内的搜索引擎。那么,可能有人会想:“那我买点优质数据不就完了吗?”但对于许多公司,尤其是初创企业来说,这笔投入看似是一个风险过高的赌注。更不要考虑到找到一个好的数据供应商是万里挑一的概率了。这个风险,创业公司很难担的起。如果大规模投入后,模型效果不如预期,那么这笔投资就像是泥牛入海。因此,许多公司选择了一条看似更安全的路径:直接使用开源数据进行训练,然后匆忙召开发布会。更有意思的是,在国内的AI领域,这份"黄金"似乎变成了一个难解的谜题。正如一位大厂AI线的负责人所言,"在中国,你能拿到的数据,别人也能拿到。"

其他人在问
什么是AIGC
AIGC 即 AI generated content,又称为生成式 AI,意为人工智能生成内容。例如 AI 文本续写,文字转图像的 AI 图、AI 主持人等,都属于 AIGC 的应用。 AIGC 能够通过机器学习和深度学习算法,根据输入的数据和指令生成符合特定要求的内容,在内容创作、广告、媒体等领域有着广泛的应用。其具体应用包括: 1. 文字生成:使用大型语言模型(如 GPT 系列模型)生成文章、故事、对话等内容。 2. 图像生成:使用 Stable Diffusion、DALLE 等模型生成艺术作品、照片等。 3. 视频生成:使用 Runway、KLING 等模型生成动画、短视频等。 AIGC、UGC 和 PGC 都是内容生成的不同方式,主要区别在于内容的创作者和生成方式: 1. AIGC 由人工智能生成内容,优势在于可以快速、大规模地生成内容,适用于需要大量内容的场景,如自动化新闻、广告创作等。 2. UGC 由用户生成内容,优势在于内容丰富多样,能够反映用户的真实想法和创意,适用于社交媒体、社区论坛等互动性强的平台。 3. PGC 由专业人士或机构生成内容,优势在于内容质量高、专业性强,适用于新闻媒体、专业网站等需要高质量内容的平台。 能进行 AIGC 的产品项目众多,能进行 AIGC 的媒介也很多,包括且不限于: 1. 语言文字类:OpenAI 的 GPT,Google 的 Bard,百度的文心一言,还有一种国内大佬下场要做的的 LLM 都是语言类的。 2. 语音声音类:Google 的 WaveNet,微软的 Deep Nerual Network,百度的 DeepSpeech 等,还有合成 AI 孙燕姿大火的开源模型 Sovits。 3. 图片美术类:早期有 GEN 等图片识别/生成技术,去年大热的扩散模型又带火了我们比较熟悉的、生成质量无敌的 Midjourney,先驱者谷歌的 Disco Diffusion,一直在排队测试的 OpenAI 的 Dalle·2,以及 stability ai 和 runaway 共同推出的 Stable Diffusion。 SD 是 Stable Diffusion 的简称。它是由初创公司 StabilityAI、CompVis 与 Runway 合作开发,2022 年发布的深度学习文本到图像生成模型。它主要用于根据文本的描述产生详细图像。Stable Diffusion 是一种扩散模型(diffusion model)的变体,叫做“潜在扩散模型”(latent diffusion model; LDM)。SD 的代码模型权重已公开发布,可以在大多数配备有适度 GPU 的电脑硬件上运行。当前版本为 2.1 稳定版(2022.12.7)。我们可以通过一系列的工具搭建准备,使用 SD 进行想要的图片 AIGC。
2024-10-24
有什么生成海报或者图生图的AI应用工具
以下是一些生成海报或者图生图的 AI 应用工具: 用于工作中出图的有:Labzen、龙飞等。 用于电商应用出图的有:薄荷、刘燕兰等。 用于广告出图的有:朱鹏等。 以下是一些推荐的 AI 海报生成工具: Canva(可画):https://www.canva.cn/ 是一个受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可帮助选择合适颜色搭配和字体样式。 稿定设计:https://www.gaoding.com/ 稿定智能设计工具采用先进人工智能技术,自动分析和生成设计方案。 VistaCreate:https://create.vista.com/ 是简单易用的设计平台,提供大量设计模板和元素,用户可用 AI 工具创建个性化海报,智能建议功能可帮助快速找到合适设计元素。 Microsoft Designer:https://designer.microsoft.com/ 通过简单拖放界面,可快速创建演示文稿、社交媒体帖子等视觉内容,还集成丰富模板库和自动图像编辑功能。 以下是一些好用的图生图产品: Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 需要注意的是,这些 AI 模型可能存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。内容由 AI 大模型生成,请仔细甄别。
2024-10-24
成为天工AI主理人可以赚钱么
天工 AI 主理人能否赚钱取决于多种因素。例如,作为主理人,如果能够深刻理解 AI 技术的巨大潜力,并将其应用于企业运营,帮助企业完成数字化转型、优化运营效率,或者协助个人利用 AI 重构知识体系、实现个人成长,那么有可能通过提供相关服务获得收益。但具体的盈利情况还会受到市场需求、自身能力和资源、竞争状况等多种因素的综合影响。
2024-10-24
天工AI主理人是做什么的
天工 AI 主理人的职责包括但不限于以下方面: 作为独立博客 IAIUSE 主理人,深刻理解 AI 技术的巨大潜力,将前沿技术应用于企业运营,助力企业完成数字化转型并优化运营效率。 协助个人利用 AI 重构知识体系,促进个人成长,帮助个人在 AI 时代轻松前行,让更多人因 AI 而强大。 具备央企架构师、外企咨询顾问、互联网产品经理等相关经验和背景。
2024-10-24
AI在医疗领域有哪些应用?
AI 在医疗领域的应用十分广泛,主要包括以下几个方面: 1. 医学影像分析:可用于分析 X 射线、CT 扫描和 MRI 等医学图像,辅助诊断疾病。 2. 药物研发:能够加速药物研发过程,比如识别潜在的药物候选物和设计新的治疗方法。 3. 个性化医疗:通过分析患者数据,为每个患者提供个性化的治疗方案。 4. 机器人辅助手术:用于控制手术机器人,提高手术的精度和安全性。 5. 药品推荐系统:利用机器学习算法分析用户购买记录、症状描述等数据,为用户推荐合适的非处方药品和保健品,提升销售转化率。 6. 药品库存管理:通过分析历史销售数据、天气、疫情等因素,预测未来某段时间内的药品需求量,优化药店的库存管理策略,降低成本。 7. 药品识别与查询:借助计算机视觉技术,用户可以用手机拍摄药品图像,AI 系统自动识别药名并提供说明、用法、禁忌等信息查询服务。 8. 客户服务智能助手:基于自然语言处理技术,AI 虚拟助手可以回答顾客关于购药、用药、保健等常见问题,减轻人工客服的工作压力。 9. 药店运营分析:AI 可以分析药店的销售、顾客流量、库存等大数据,发现潜在的运营问题和优化空间,为决策提供参考。 10. 药品质量监控:通过机器视觉、图像识别等技术,AI 能够自动检测药品的包装、标签、颜色等是否合格,及时发现问题。 11. 药品防伪追溯:利用区块链等技术,AI 可以实现全流程的药品溯源,确保药品供应链的安全性和真实可信度。 此外,AI 在医疗健康生物制药的研究中也发挥着重要作用,例如: 1. 提前三年诊断胰腺癌。 2. 发现与胶质母细胞瘤相关的新靶基因。 3. 帮助抗衰老,筛查高效的药物候选物。 4. 寻找阿尔兹海默症的治疗方法。 5. 早期诊断帕金森。
2024-10-24
AI在医疗领域有哪些应用?
AI 在医疗领域的应用十分广泛,主要包括以下几个方面: 1. 医学影像分析:能够用于分析 X 射线、CT 扫描和 MRI 等医学图像,辅助诊断疾病。 2. 药物研发:可加速药物研发过程,比如识别潜在的药物候选物和设计新的治疗方法。 3. 个性化医疗:通过分析患者数据,为每个患者提供个性化的治疗方案。 4. 机器人辅助手术:用于控制手术机器人,提高手术的精度和安全性。 5. 药品推荐系统:利用机器学习算法分析用户购买记录、症状描述等数据,为用户推荐合适的非处方药品和保健品,提升销售转化率。 6. 药品库存管理:通过分析历史销售数据、天气、疫情等因素,预测未来某段时间内的药品需求量,优化药店的库存管理策略,降低成本。 7. 药品识别与查询:借助计算机视觉技术,用户可以用手机拍摄药品图像,AI 系统自动识别药名并提供说明、用法、禁忌等信息查询服务。 8. 客户服务智能助手:基于自然语言处理技术,AI 虚拟助手可以回答顾客关于购药、用药、保健等常见问题,减轻人工客服的工作压力。 9. 药店运营分析:AI 可以分析药店的销售、顾客流量、库存等大数据,发现潜在的运营问题和优化空间,为决策提供参考。 10. 药品质量监控:通过机器视觉、图像识别等技术,AI 能够自动检测药品的包装、标签、颜色等是否合格,及时发现问题。 11. 药品防伪追溯:利用区块链等技术,AI 可以实现全流程的药品溯源,确保药品供应链的安全性和真实可信度。 此外,AI 在抗癌、抗衰老、早期疾病防治等的研究应用中也起着重要作用,例如: 1. 提前三年诊断胰腺癌。 2. 发现与胶质母细胞瘤相关的新靶基因。 3. 帮助抗衰老,筛查高效的药物候选物。 4. 寻找阿尔兹海默症的治疗方法。 5. 早期诊断帕金森。
2024-10-24
写短剧剧本的智能体有没有什么案例可以参考
以下是一些写短剧剧本的智能体案例供您参考: 在“画小二:如何写好提示词是创建智能体第一步”中,有儿童寓意故事创作者相关的案例,如《猴子和渔夫》《掉在井里的狐狸和公山羊》《徒劳的寒鸦》等。 《猴子和渔夫》:猴子看到渔夫捕鱼觉得有趣尝试却失败,明白有些事看似简单实则不易。 《掉在井里的狐狸和公山羊》:狐狸骗山羊下井助其逃出,山羊后悔,告诉我们不要盲目跟从要有判断力。 《徒劳的寒鸦》:寒鸦收集羽毛装扮自己遭嘲笑,明白内心美更重要。 还有《照亮屋子》《杀龙妙技》《不同看法》《志愿是当小丑》等故事。 《照亮屋子》:先生让学生买东西装满黑暗房间,一个买干草未成功,另一个买蜡烛成功照亮。 《杀龙妙技》:朱泙漫学杀龙技术归来却无处杀龙,白学本领。 《不同看法》:父子看豪车,儿子认为坐车人没学问,父亲认为说这话的人没钱。 《志愿是当小丑》:中国老师斥学生当小丑志愿胸无大志,外国老师则愿其把欢笑带给全世界。 另外,“剧本影子”智能体的核心功能是一键导入剧本,快速提炼故事大纲,还具有仿写、深化人物塑造、撰写分级大纲等功能,能在 10 分钟内完成从大纲到完整剧本的转变。其主要目标人群为内容创作者,包括短视频创作者、短剧创作者、影视剧本创作者、动漫及 3D 内容创作者等。
2024-10-23
我想练英语口语和法语口语,有没有能对话和纠正我发音的AI
以下是一些能够进行英语口语和法语口语对话及纠正发音的 AI 工具和方法: 英语学习: 智能辅助工具:如 Grammarly 可进行英语写作和语法纠错,改进英语表达和写作能力。 语音识别和发音练习:使用语音识别应用 Call Annie 进行口语练习和发音纠正,获取实时反馈和建议。 自适应学习平台:Duolingo 利用 AI 技术为您量身定制学习计划,提供个性化的英语学习内容和练习。 智能导师和对话机器人:ChatGPT 可进行英语会话练习和对话模拟,提高交流能力和语感。 法语学习:目前可能没有像上述英语学习那样特别知名和广泛使用的专门针对法语的 AI 工具,但您可以尝试在一些通用的语言学习平台或应用中寻找法语学习的相关功能。 另外,您还可以通过以下方式: 网址:https://www.coze.cn/home APP:直接搜索“豆包”。其优点包括不需要翻墙,可捏好给别人用,能扩展聊天 AI 的基础能力(搜索、作图、文档等)。注册方式为手机号、抖音号或飞书号,大约需要 5 分钟。 在使用过程中可能会遇到一些问题,比如语言切换、语句过长听不懂、需要发音纠正等,但通过持续学习和优化使用方法,可以更好地利用 AI 提升口语能力。
2024-10-22
有没有可以免费p图的AI
以下是一些可以免费 P 图的 AI 工具及相关信息: 无界 AI: 网址:https://www.wujieai.cc/ 做图逻辑类似于 SD,优势在于国内网络即可稳定使用,有免费出图点数,支持中文关键词输入,无需额外下载风格模型,可直接取用。 应用场景如朋友圈 po 图,画幅比例可选择 1:1,皮克斯卡通模型可用于相关创作,关键词类别包括场景、氛围、人物、造型、情绪、道具、构图、画面、特殊等方面。 部分免费图库: 可以通过 AI 分析文章内容给出配图建议和关键词,然后利用这些信息在免费图库中快速找到合适的无版权图片。 此外,在软件架构设计中绘制逻辑视图、功能视图和部署视图的工具包括: Lucidchart:流行的在线绘图工具,支持多种图表创建。 Visual Paradigm:全面的 UML 工具,提供多种架构视图创建功能。 ArchiMate:开源建模语言,与 Archi 工具配合使用创建逻辑视图。 Enterprise Architect:强大的建模、设计和生成代码工具。 Microsoft Visio:广泛使用的图表和矢量图形应用程序。 draw.io(现称为 diagrams.net):免费在线图表软件。 PlantUML:文本到 UML 转换工具。 Gliffy:基于云的绘图工具。 Archi:免费开源工具,支持逻辑视图创建。 Rational Rose:IBM 的 UML 工具,支持多种视图创建。
2024-10-22
有没有什么好用的视频剪辑AI工具
以下为您介绍一些好用的视频剪辑 AI 工具: 剪映:方便之处在于有很多人性化设计以及简单的音效库和小特效。但无法协同工作和导出工程文件,难以与其他软件进行工程联通,应用于商业化效果有限。剪辑流程包括视频粗剪、定剪、音效/音乐、特效、包装(如字幕)。在声音运用方面,好的声音制作可为影片增色,视频粗剪时可先确定画面逻辑,定剪时再调整和替换画面素材至满意效果。音效方面,剪映的简单音效库可用于制作简单短片,复杂音效可能需另外制作。特效方面,例如可添加一些光影效果。包装方面,剪映可智能匹配字幕再修改。 视频配音效的 AI 工具: Vidnoz AI:支持 23 多种语言的配音,音质高保真,支持文本转语音和语音克隆功能,提供语音参数自定义和背景音乐添加工具,有面向个人和企业的经济实惠的定价方案。 Wavel Studio:支持 30 多种语言的配音,音质自然流畅,能自动去除背景噪音和杂音,提供添加字幕和文本叠加层的工具,界面友好且有多种自定义选项。 Elai.io:支持 65 多种语言的配音,音色和语调真实,能自动将唇形与语音同步,生成字幕提高视频可访问性,支持多位配音者适合复杂对话场景。 Rask AI:支持 130 多种语言的配音,包括稀有和濒危语言,采用先进语音合成技术音质高保真,提供语音参数自定义和音效添加工具,与多种视频编辑平台和工作流程整合。 Notta:提供快速实惠的多语言配音解决方案,保留原声说话风格和细微差别,提供调整语音速度和音调的工具,支持批量处理高效完成多视频配音。 Dubverse:支持 60 多种语言的配音,音质接近真人,提供文本转语音和语音克隆功能,提供语音参数自定义和情感添加工具,与多种视频平台和社交媒体渠道整合。 在选择视频配音工具时,请考虑支持的语言数量、语音质量、自定义选项和价格等因素。
2024-10-22
有没有什么资料可以快速了解AI
以下是一些可以帮助您快速了解 AI 的资料: 1. 学术论文:通过 Google Scholar、IEEE Xplore、ScienceDirect 等学术数据库搜索相关论文,了解 AI 在不同领域的应用和研究成果。 2. 专业书籍:查找与 AI 相关的专业书籍,深入学习 AI 的理论和应用案例。 3. 在线课程和教程:在 Coursera、edX、Udacity 等平台参加 AI 相关课程,在 YouTube 等视频平台查找教程和演示视频。 4. 技术论坛和社区:加入如 Stack Overflow、Reddit 的 r/AI 等相关论坛和社区,与专业人士交流学习。 5. 开源项目和代码库:在 GitHub 等开源平台探索 AI 相关项目,了解其应用和实现。 6. 企业案例研究:研究如 Autodesk、Siemens 等公司在 AI 领域的应用案例,了解实际效果。 对于入门经典必读,您可以参考作者为 的相关内容,原文地址为 https://a16z.com/2023/05/25/aicanon/ 。 如果您不会代码,想在 20 分钟上手 Python + AI,您可以先了解以下基础内容: AI 背景知识: 基础理论:明确人工智能、机器学习、深度学习的定义及相互关系。 历史发展:回顾 AI 的发展历程和重要里程碑。 数学基础: 统计学基础:熟悉均值、中位数、方差等统计概念。 线性代数:掌握向量、矩阵等基本概念。 概率论:了解基础的概率论知识,如条件概率、贝叶斯定理。 算法和模型: 监督学习:熟悉线性回归、决策树、支持向量机(SVM)等常用算法。 无监督学习:了解聚类、降维等算法。 强化学习:知晓其基本概念。 评估和调优: 性能评估:掌握如何评估模型性能,如交叉验证、精确度、召回率等。 模型调优:学会使用网格搜索等技术优化模型参数。 神经网络基础: 网络结构:理解前馈网络、卷积神经网络(CNN)、循环神经网络(RNN)等基本结构。 激活函数:熟悉常用的激活函数,如 ReLU、Sigmoid、Tanh。
2024-10-22
有没有关于工作任务分解为具体步骤的提示词
以下是关于将工作任务分解为具体步骤的提示词相关内容: 提示词工程的任务可分解为两个步骤,如 Pryzant 等人(2023)所做:第一步,模型预期检查当前提示词和一批样本;第二步,模型预期编写一个改进的提示词。 对于复杂任务,可将其分解成更小的步骤,并在提示词中明确每个步骤的具体操作,引导模型逐步完成任务。例如,使用以下逐步说明:步骤 1 用户将提供用三重引号引用的文本。用一个句子总结这段文本,并以“摘要:”作为前缀。步骤 2 将步骤 1 的摘要翻译成西班牙语,前缀为“翻译:”。 如果将任务分解,Claude 在执行任务时犯错或遗漏关键步骤的可能性会降低。 为了鼓励模型仔细检查批次中的每个示例,并反思当前提示词的局限性,可指导提案模型回答一系列问题,如输出是否正确、提示词是否正确描述了任务、是否有必要编辑提示词等。 实际操作中,提示词插入整个输入序列的位置是灵活的,可能位于输入文本之前用于描述任务,也可能出现在输入文本之后以激发推理能力。在元提示词中应明确提示词和输入之间的相互作用。
2024-10-21
Lora模型训练数据集
以下是关于 Lora 模型训练数据集的相关内容: 创建数据集: 1. 进入厚德云模型训练数据集(https://portal.houdeyun.cn/sd/dataset)。 2. 在数据集一栏中,点击右上角创建数据集,输入数据集名称。 3. 可以上传包含图片+标签 txt 的 zip 文件,也可以只有图片(之后可在 c 站使用自动打标功能),还可以一张一张单独上传照片,但建议提前把图片和标签打包成 zip 上传。 4. Zip 文件里图片名称与标签文件应当匹配,例如:图片名“1.png”,对应的达标文件就叫“1.txt”。 5. 上传 zip 以后等待一段时间,确认创建数据集。返回到上一个页面,等待一段时间后上传成功,可以点击详情检查,能预览到数据集的图片以及对应的标签。 Lora 训练: 1. 点击 Flux,基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集,点击右侧箭头,会跳出所有上传过的数据集。 3. 触发词可有可无,取决于数据集是否有触发词。模型效果预览提示词则随机抽取一个数据集中的标签填入即可。 4. 训练参数这里可以调节重复次数与训练轮数,厚德云会自动计算训练步数。如果不知道如何设置,可以默认 20 重复次数和 10 轮训练轮数。 5. 可以按需求选择是否加速,点击开始训练,会显示所需要消耗的算力。然后等待训练,会显示预览时间和进度条。训练完成会显示每一轮的预览图。鼠标悬浮到想要的轮次模型,中间会有个生图,点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。 用 SD 训练一套贴纸 LoRA 模型的工作流: 1. 原始形象:MJ 初步产出符合设计想法的贴纸原始形象。 2. 二次加工:完成贴纸的白色边线等细节加工。 3. 处理素材:给训练集图片打 tag,修改 tag。 4. 训练模型:将上述处理好的数据集做成训练集,进行训练。 用 SD 训练一套贴纸 LoRA 模型的原始形象:MJ 关键词: A drawing for a rabbit stickers,in the style of hallyu,screenshot,mori kei,duckcore plush doll art exaggerated poses,cry/happy/sad/...ar 3:4 niji 5 style cute s 180 。会得到不同风格的贴图,我们可以先看看自己喜欢哪一种。出图过程可以有意识地总结这一类贴图的特征,比如都是可爱的兔子,有不同的衣服和头饰,都有一双大大的卡通眼睛,会有不同的面部表情。 注意事项: 1. 关键词中限制了颜色,因此 MJ 生成的图片会一种情绪对应一种颜色,所以同一种情绪最好多生成几张不同色系的,可以减少后续训练中模型把情绪和颜色做挂钩(如果需要这样的话,也可以反其道而行之)。 2. 数据集中正面情绪与负面情绪最好比例差不多,如果都是正面积极的,在出一些负面情时(sad,cry)的时候,可能会出现奇怪的问题(如我们训练的是兔子形象,但 ai 认知的 sad 可能是人的形象,可能会出现人物特征)。 3. 如果训练 256266 大小的表情包,这样的素材就已经够用了。如果要训练更高像素的图片,则需要进一步使用 MJ 垫图和高清扩展功能。 高清化: 左(256)→右(1024),输入左图,加入内容描述,加入风格描述,挑选合适的,选出新 30 张图片(卡通二次元类型的 lora 训练集 30 张差不多,真人 60100 张)。
2024-10-22
科学问题二:XXX(小标题) 问题挑战:如何通过构建合理的先验知识或模型假设,刻画出数据中的可变性?如何利用从少量样本中提取到的变化信息来预测未见数据的表现? XXX XXX(问题挑战一的方法) XXX)问题挑战二的方法) 请将XXX补充完整,重点在预测,如何刻画和利用数据分布的“变化性”
以下是为您补充完整的内容: 对于如何通过构建合理的先验知识或模型假设,刻画出数据中的可变性,以及如何利用从少量样本中提取到的变化信息来预测未见数据的表现,我们可以参考以下方法: 在准备 LLM 数据方面,对于制作 LLM 微调数据集,首先获取文本格式非结构式和网络式结构式的数据。对于 QA 数据集,主要依靠已有的大语言模型生成,根据不同文本设定不同的提示词以获取尽可能多且信息量丰富的 QA。先对文件中的文本进行切割,将每一大部分放进一个约 200 字的 txt 文件里,然后设定提示词模板。例如对于公司产品手册,模板可以是:“你是一个聪明的 xxx 公司的 xxx 产品的产品经理。给你一段 xxxxx 有限公司 xx 产品相关的文本,你必须依据文本想出十个不同的问题和这十个问题对应的答案。你想出的问题可以被用来测试公司内部 xxx 职员的专业能力。你想出的问题可以是使用公司产品的用户会想到的问题。你想出的问题和答案必须和所给文本相关。你回答得答案必须可以让使用产品的用户理解。当你想出问题和答案后,你必须用以下格式回复:```
2024-10-21
如何用大模型和数据接口对话
以下是关于如何用大模型和数据接口对话的相关内容: 大模型入门指南 动手实验 由于作者使用的是 macOS 系统,因此采用 GGML 量化后的模型。官方开源出来的模型大都以 Python 为主,效率一般。作者通常会采用社区内的其他实现,比较有名的项目有: ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++ ggerganov/whisper.cpp:Port of OpenAI's Whisper model in C/C++ LLama 首先是编译,为了利用 Metal 的 GPU,可以用如下命令编译。之后需要去 Llama27BChatGGML中下载模型,3G 到 7G 不等,读者可以按需尝试。此外,llama.cpp 还提供了 WebUI 供用户使用,首先启动 server,它默认监听 8080 端口,打开浏览器就可以对话。 Whisper 和 llama 类似,采用 make 命令编译,之后去 ggerganov/whisper.cpp下载量化好的模型,然后转换音频即可,目前只接受 wav 格式,可以用 ffmpeg 转化。输出的 srt 文件如下所示: |Size|Parameters|Englishonly model|Multilingual model|Required VRAM|Relative speed| ||||||| |tiny|39 M|tiny.en|tiny|~1 GB|~32x| |base|74 M|base.en|base|~1 GB|~16x| |small|244 M|small.en|small|~2 GB|~6x| |medium|769 M|medium.en|medium|~5 GB|~2x| |large|1550 M|N/A|large|~10 GB|1x| 一般来说,英文的音频 small 模型就足够了,但是如果是中文,最好用最大的模型。 数据库 通过在工作流中添加数据库节点对数据表进行操作。在工作流中可通过 NL2SQL 方式和代码方式进行调用,支持完整读写模式。 参考以下操作,在工作流中添加并配置工作流节点。在工作流中配置数据库节点前,确保已经搭建了一个 Bot,并在这个 Bot 中创建好了数据表。 1. 单击页面顶部的工作流页签,然后单击创建工作流。 2. 输入工作流名称和工作流的使用描述,然后单击确认。工作流名称和描述可以帮助大语言模型理解什么场景下需要调用该工作流。 1. 在基础节点页签下,将数据库节点拖入到工作流配置画布区域。 2. 根据以下信息配置数据库节点。 2.1. 输入:添加 SQL 执行中需要的参数,可以是一个变量,也可以是一个固定值。 2.2. SQL:输入要执行的 SQL 语句,可以直接使用输入参数中的变量。 可单击自动生成使用大模型生成 SQL。在弹出的页面中,选择这个数据库工作流生效的 Bot 和数据表,然后使用自然语言描述要执行的操作,单击自动生成生成 SQL 语句,最后单击使用。 不支持 Select语法。不支持多表 Join 操作。最多返回 100 行数据。 手把手教你本地部署大模型以及搭建个人知识库 通过 Open WebUI 使用大模型 使用 Open WebUI 1. 首先访问如下网址。当打开这个页面的时候,会让你登陆,这个时候随便使用一个邮箱注册一个账号即可。 1. 和本地大模型进行对话。登陆成功之后,如果已经使用过 ChatGPT 等类似的大模型对话网站,对这个页面应该不陌生。Open WebUI 一般有两种使用方式:第一种是聊天对话;第二种是 RAG 能力,也就是可以让模型根据文档内容来回答问题。这种能力就是构建知识库的基础之一。如果要求不高的话,已经搭建了一个本地大模型了,并且通过 Web UI 实现了和大模型进行对话的功能。 相信通过这么一通折腾,就理解了 ChatGPT 的信息流。至于为什么 ChatGPT 的访问速度比我们自己的要快,而且回答效果要好,有两个原因:快是因为 GPT 大模型部署的服务器配置高;好是因为 GPT 大模型的训练参数多,数据更优以及训练算法更好。如果想要更加灵活的掌握知识库,请接着往下看。
2024-10-21
有哪些免费使用的数据分析模型?
以下是一些免费使用的数据分析模型: OpenAI 发布的开源模型,包括 详细了解其研究论文中介绍的模型以及 InstructGPT 和 GPT3.5 等模型系列之间的差异。 智谱·AI 提供的开源模型,均可以在以下平台进行下载:进行登记后亦允许免费商业使用。 此外,OpenAI API 由具有不同功能和价位的多种模型提供支持,如: Beta:一组改进 GPT3.5 的模型,可以理解和生成自然语言或代码。 :一组改进 GPT3 的模型,可以理解并生成自然语言或代码。 Beta:可以在给定自然语言提示的情况下生成和编辑图像的模型。 Beta:可以将音频转换为文本的模型。 :一组可以将文本转换为数字形式的模型。 Limited Beta:一组可以理解和生成代码的模型,包括将自然语言转换为代码。 :可以检测文本是否敏感或不安全的微调模型。 :一组可以理解和生成自然语言的模型。 需要注意的是,智谱 AI 提供的所有开源模型均可下载后基于完全离线的环境使用,用户无需担心数据泄露等风险。但 AI 模型可能犯错,由于模型回答造成的后果,智谱 AI 不承担相应责任。
2024-10-19
AI做数据分析有什么好的工具?
以下是一些用于 AI 做数据分析的好工具: Text2SQL 相关工具: Text2SQL:将英文转换为 SQL 查询。链接:https://toolske.com/text2sql/?ref=theresanaiforthat ai2sql:高效且无错误的 SQL 构建器。链接:https://www.ai2sql.io/ EverSQL:从 SQL 查询翻译英文文本。链接:https://www.eversql.com/sqltotext/ SupaSQL:从 NLP 生成 SQL 查询。链接:https://supasql.com/ SQLgenius:使用自然语言的 SQL 查询生成器。链接:https://sqlgenius.app/ SQL Chat:与数据库进行自然语言聊天的 SQL 客户端。链接:https://www.sqlchat.ai/ SQL Ease:从自然语言输入生成 SQL 查询。链接:https://sqlease.buildnship.in/ Talktotables:翻译和查询数据库。链接:https://talktotables.com/ SQLNet:一个使用深度学习方法解决 text2sql 任务的项目。 Seq2SQL:一个将自然语言转换为 SQL 查询的序列到序列模型。 Spider:一个大规模的 text2sql 数据集及其相关的挑战 ChatGPT 在数据分析方面也有应用,例如在个性化分析中,包括单维度数据、多维度数据的折线图和柱状图分析等。但使用时可能存在将数据项误作为维度分析的情况,可通过输入提示指定维度字段或描述其他数据信息来提高分析准确性。同时,在实际业务中处理大量数据时,需指定允许查询或解析的字段,并对结果数据进行校验。 论文写作领域的 AI 工具和平台: 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 内容生成和辅助写作: Grammarly:提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,精简和优化内容。 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,进行复杂数据分析和模型构建。 论文结构和格式: LaTeX:结合自动化和模板,处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供模板库和协作功能,简化编写过程。 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 使用这些工具时,应结合自身写作风格和需求,选择最合适的辅助工具。请注意,部分内容由 AI 大模型生成,请仔细甄别。
2024-10-19
我的app应用想要对接大语言模型,结合APP用户自身的数据,实现更精准的对话,是否有行业比较成功的案例可以借鉴
以下是一些在 APP 应用对接大语言模型方面比较成功的案例,可供您借鉴: 1. Poe: 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用。 支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户,midjourney prompt 扩写 Chatbot 能力很惊人。 2. Perplexity.ai: 本质是个可联网的搜索引擎,完全免费,支持网页版、APP(目前支持 iOS,安卓即将推出)、Chrome 插件。 网页版能力全面,能够根据提问从互联网上搜寻信息并给出总结后的答案。 很多 Chat GPT 中调用插件才能解决的事情(联网查询、旅行、住宿、商品推荐)靠 Perplexity 就可以解决。 能给出信息来源网址,并根据搜索内容给出继续对话的问题建议。 最新推出的 Copilot 能力支持根据搜索内容进行信息补充,每 4h 内使用 5 次,调用 GPT4。 支持分享聊天内容到多渠道。 首页推荐当下流行的新闻、搜索内容。 支持筛选 Academic(包含不同领域的学术研究论文)、Wolfram|Alpha(包含数学、科学、经济学、语言学、工程学、社会科学、文化等领域的知识库)、Wikipedia(维基百科)、Youtube、Reddit(娱乐、社交和新闻网站)、News 进行搜索。 Chrome 插件可针对当前页面给出即时摘要。 访问地址:
2024-10-18