Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

非结构化数据治理

Answer

以下是关于非结构化数据治理的相关信息:

在 AI 新产品方面:

  • JamGPT AI Debug 小助手:https://jam.dev/jamgpt
  • ChatGPT-2D 用于生成二维知识图谱:https://www.superusapp.com/chatgpt2d/
  • Motörhead by metal 是用于 LLM 的开源内存和信息检索服务器:https://github.com/getmetal/motorhead

在网页抓取工具方面:

  • Hexomatic:https://hexomatic.com/
  • WebscrapeAI:https://webscrapeai.com/
  • Kadoa:https://www.kadoa.com/

在个人数据处理方面:

  • Bloks 可自动处理个人笔记、任务列表和会议记录:https://www.bloks.app/
  • Lettria 用于处理个人文本材料:https://www.lettria.com/
  • Quadratic 可使用 AI、Python、SQL 和公式分析个人数据:https://www.quadratichq.com/?ref=producthunt

在向量数据库方面,以电影网站为例,传统搜索在处理语义搜索和对非结构化数据(如图像、音频等)的相似性搜索时存在问题,比如用户输入“电影像《星球大战》一样令人兴奋”或上传一张电影《银翼杀手》的海报,传统关系数据库或 Excel 难以理解和返回相关搜索结果。

在金融行业,非结构化数据主要涉及报告(如年度报告、季度报告等公司财务报告)、公告(如董事会公告、监事会公告、股东大会公告等)、上市资料(如招股说明书等公司上市相关文件)。

Content generated by AI large model, please carefully verify (powered by aily)

References

4月动态|78个AI新产品

🍓JamGPTAI Debug小助手。🔗https://jam.dev/jamgpt💡ChatGPT-2D使用ChatGPT生成二维知识图谱。🔗https://www.superusapp.com/chatgpt2d/💾Motörhead by metal.用于LLM的开源内存和信息检索服务器。🔗https://github.com/getmetal/motorhead网页抓取过去两周,冒出了许多AI驱动的网页信息自动抓取工具,虽然当前用Gen AI做网页抓取并非主流技术方案,但其优势也是显而易见的,例如,可以更好地理解分析非结构化数据,实现更精准的抓取。以下是三个比较受欢迎的AI网页抓取小工具:✅Hexomatic🔗https://hexomatic.com/✅WebscrapeAI🔗https://webscrapeai.com/✅Kadoa🔗https://www.kadoa.com/[heading4]个人数据[heading5]✅非结构化数据处理-Bloks[content]个人笔记、任务列表和会议记录自动处理。🔗https://www.bloks.app/[heading5]✅文本处理-Lettria[content]个人文本材料处理。🔗https://www.lettria.com/[heading5]✅数据处理-Quadratic[content]使用AI、Python、SQL和公式分析个人数据。🔗https://www.quadratichq.com/?ref=producthunt

大雨:简单易懂的向量数据库解析:你需要了解的一切

案例:电影网站用户希望找到类似于他们最喜欢的电影的其他电影,输入“电影像《星球大战》一样令人兴奋”。传统关系数据库或Excel基于字面匹配搜索,无法理解“令人兴奋”这一抽象概念,也无法捕捉到与《星球大战》相似的电影风格或主题,因此难以返回相关的搜索结果。[heading3]对非结构化数据(图/音等)进行相似性搜索[content]案例:用户上传一张电影《银翼杀手》的电影海报,希望找到具有相似视觉风格的电影。在传统关系数据库或Excel中,图像、音频和视频数据无法有效索引或搜索,因为这些工具需要明确的文本描述或关键字。用户无法通过上传图像来检索相似内容,因为这些平台无法解析和理解非结构化数据的内容。好的,我们可以使用更日常生活中的比喻和简单的语言来解释这些复杂的技术问题,让熟悉Excel但不一定了解复杂数据库技术的普通用户能够理解。

金融行业 · 大模型挑战赛 |用大模型理解金融市场

非结构化数据主要涉及:报告:年度报告、季度报告等公司财务报告。公告:董事会公告、监事会公告、股东大会公告等。上市资料:如招股说明书等公司上市相关文件。

Others are asking
非结构化数据
非结构化数据是指缺乏预定义格式的数据,如文本、图像和音频等。为在人工智能和机器学习应用中利用这些数据,需使用嵌入技术将其转换为数字表示。嵌入就像给每个项目赋予独特的代码以捕捉其含义或本质,通常通过特殊神经网络实现,例如单词嵌入将单词转换为向量,使含义相似的单词在向量空间中更接近,从而让算法了解项目间的关系和相似性,将非数字数据转换成机器学习模型可处理的形式,以辨别数据中的模式和关系。 在金融行业中,非结构化数据主要涉及报告(年度报告、季度报告等公司财务报告)、公告(董事会公告、监事会公告、股东大会公告等)、上市资料(如招股说明书等公司上市相关文件)。 向量数据库处理的是称为向量的复杂非结构化数据,其存储过程为:若为文本,通过模型转换成向量对象后存入数据库,再进行使用。传统数据库以表格形式存储简单数据,而向量数据库使用独特方法搜索,如近似近邻(ANN)搜索,包括散列搜索和基于图的搜索等方法,且使用特定的相似性度量来寻找最接近的匹配。要理解向量数据库的工作原理及与传统关系数据库的不同,需先理解嵌入的概念。
2025-01-24
请给我一份李继刚的结构化的prompt方法论
李继刚的结构化的 prompt 方法论如下: 如何写好 Prompt:结构化 结构化:对信息进行组织,使其遵循特定的模式和规则,从而方便有效理解信息。 语法:支持 Markdown 语法、YAML 语法,甚至纯文本手动敲空格和回车都可以。 结构:结构中的信息可根据自己需要进行增减,常用模块包括: Role:<name>,指定角色会让 GPT 聚焦在对应领域进行信息输出。 Profile author/version/description:Credit 和迭代版本记录。 Goals:一句话描述 Prompt 目标,让 GPT Attention 聚焦起来。 Constrains:描述限制条件,帮 GPT 进行剪枝,减少不必要分支的计算。 Skills:描述技能项,强化对应领域的信息权重。 Workflow:重点中的重点,希望 Prompt 按什么方式来对话和输出。 Initialization:冷启动时的对白,强调需注意重点。 示例 贡献者:李继刚,Sailor,田彬玏,Kyle😜,小七姐等群友。 李继刚的。 每个角色都有版本迭代,标注版本号,争取每个都更新到最新的版本。 李继刚写了上百个这种 Prompt,有具体场景需求可评论留言,作者可帮忙写定制的,也可自己用这种结构化的方式写。 使用方法:开一个 new chat,点代码块右上角的复制,发送到 chat 聊天框即可,里面的描述可按自己需求修改。 思路来源:云中江树的框架: 方法论总结: 建议用文心一言/讯飞星火等国内大模型试试,有这些 prompt 的加持,效果不错。
2024-12-17
将活动主题拆解为大量结构化提示词,用于文生视频
以下是将活动主题拆解为大量结构化提示词用于文生视频的相关内容: 技巧 1:提示词的结构 当提示词有清晰的结构时,提示效果最有效。可使用简单公式:。 例如:无结构提示词“小男孩喝咖啡”,有结构的提示词“摄影机平移(镜头移动),一个小男孩坐在公园的长椅上(主体描述),手里拿着一杯热气腾腾的咖啡(主体动作)。他穿着一件蓝色的衬衫,看起来很愉快(主体细节描述),背景是绿树成荫的公园,阳光透过树叶洒在男孩身上(所处环境描述)”。 技巧 2:提示词的优化 有三个原则: 1. 强调关键信息:在提示的不同部分重复或强化关键词有助于提高输出的一致性。 2. 聚焦出现内容:尽量让提示集中在场景中应该出现的内容上。 3. 规避负面效果:在提示词中写明不需要的效果。 写提示词时,首先要明确场景中的人物和冲突,其次是对场景进行详细描述,包括地点、人物形象、任务动作等细节,使用生动的动词营造动态和戏剧化氛围,第三要加强镜头语言,如推、拉、摇、移、升、降等,每种镜头运动都有其特定作用和效果。 PixelDance V1.4 提示词指南 图生视频的基础提示词结构为:主体+运动。当主体有突出特征时可加上,需基于输入图片内容写,明确写出主体及想做的动作或运镜,提示词不要与图片内容/基础参数存在事实矛盾。
2024-12-09
常用的结构化提示词框架有哪些?
以下是一些常用的结构化提示词框架: 1. 基础的结构化编写 Prompt 框架: Role: Profile: author:作者 version:版本 language:中文 description: Goals: 1. 2. Constrains: Skills: Workflows: 1. 2. 2. CRISPE 框架(Capacity and Role,Insight,Statement,Personality,Experiment) 3. BROKE 框架(Background,Role,Objectives,Key Results,Evolve) 4. ICIO 框架: Instruction(指令):明确定义 AI 需要执行的任务,遵循简洁明了、具体详细、行动导向、单一任务等原则。 Context(背景信息):提供任务的相关背景,包括任务目的、目标受众、相关背景、限制条件、角色扮演等。 Input Data(输入数据):为 AI 提供执行任务所需的具体信息或数据。 Output Indicator(输出引导):指导 AI 如何构建和呈现输出结果,包括格式要求、语气和风格、长度限制、结构指引、特殊要求、评估标准等。
2024-11-14
结构化提示词
结构化提示词是一种像写文章一样编写提示词的方法。其思想较为普遍,日常写作的文章和书籍都常使用标题、子标题、段落、句子等语法结构。 在文生图方面,调整好参数生成图片后,若质感欠佳,可添加标准化提示词,如“,绘图,画笔”等,让画面更趋近于固定标准。 对于新手,有一套极简基础的结构化编写 Prompt 框架,例如: Role: Profile: author:作者 version:版本 language:中文 description: Goals: 1. 2. Constrains: Skills: Workflows: 1. 2. 在提高模型响应精确度方面,改进提示词格式很重要。如在问答和文本分类中,提示词可以通过指令、上下文、输入和输出指示来改进响应结果。越明确的指示,响应越好。包含相关语境和其他要素,提供更多信息和具体指令,能使响应更符合需求。
2024-11-11
GPTs 结构化提示词模板
以下是为您整理的关于 GPTs 结构化提示词模板的相关内容: 简单的提示词模板:最终目标是把需求说清楚。例如,“Act like a ”。 GPTs 教程及案例拆解 开源:一些 GPTs 的 prompt 中,如超强 LOGO 生成器,其使用方法为设计一个 logo 生成工具,允许用户上传多张 logo 图片作为参考,通过提示询问用户是否使用这些图片来创建新的 logo 设计,可自定义提示词风格和设定图片参考权重,利用 GPT4 Vision 的识图能力生成新 logo 设计,若用户不满意则重新生成,创作完后提示用户是否满意,满意则提供转 LOGO 矢量图的链接。 GPTs 教程及案例拆解 精选:GPTs 项目包括 Reviewer2Pal,可帮用户将直白的英文论文回应转换为专业回复;方法论专家 Methodology Expert,辅助用户使用方法论解决相关问题;灵感专家 Brainstorming Expert,辅助用户进行灵感思考和提出发散性角度;自动结构化框架,由小七姐编写,欢迎关注其公众号“AI 中文百科”领取更多好玩的 GPT 工具。
2024-11-07
人工智能的场景应用及其对社会治理的新挑战,注意场景应用和社会治理的对应,同时突出新挑战
以下是关于人工智能的场景应用及其对社会治理新挑战的相关内容: 场景应用: 医疗领域:如利用 AI 技术预测蛋白质结构,加速科学研究和救命药物的开发,在对抗疟疾、抗生素耐药性和塑料垃圾等方面取得巨大进展。 气候领域:通过 AI 技术应对气候变化。 对社会治理的新挑战: 可能产生新的风险,如使用 AI 可能带来的未知问题。 复杂的 AI 技术可能引发公众的不安。 涉及数据获取、计算能力、可持续性以及内容生产者和 AI 开发者权利平衡等重要问题,需要综合考虑。 需确保在保护权利持有者和支持 AI 开发者获取所需数据之间保持恰当平衡。
2025-01-23
全球人工智能治理研究报告
以下是为您整合的关于全球人工智能治理研究报告的相关内容: 2024 AI 年度报告: 正确预测: 好莱坞级别的制作公司开始使用生成式人工智能来制作视觉特效。 美国联邦贸易委员会(FTC)或英国竞争与市场管理局(CMA)基于竞争理由调查微软/OpenAI 的交易。 在全球人工智能治理方面,进展非常有限,会超出高层次的主动承诺。 一首由人工智能创作的歌曲进入公告牌 Hot 100 前 10 名或 Spotify 2024 年热门榜单。 随着推理工作负载和成本的显著增长,一家大型人工智能公司(例如 OpenAI)收购或建立了一个专注于推理的人工智能芯片公司。 错误预测: 有生成式人工智能媒体公司因其在 2024 年美国选举期间的滥用行为受到调查。 自我改进的人工智能智能体在复杂环境中(例如 AAA 级游戏、工具使用、科学探索)超越了现有技术的最高水平。 科技 IPO 市场解冻,至少看到一家以人工智能为重点的公司上市(例如 DBRX)。 2024 人工智能报告: 英国创建了世界上第一个人工智能安全研究所,美国迅速跟进。世界首个人工智能安全研究所 AISA 有三个核心功能:在部署前对高级模型进行评估;建立国家能力并开展研究;协调国际合作伙伴。AISA 还发布了 Inspect,一个用于 LLM 安全评估的框架,涵盖核心知识、推理能力和自主能力等方面。英国宣布与美国等效机构签署谅解备忘录,双方同意共同开发测试,并计划在美国旧金山设立办事处。 政府急于填补关键国家基础设施中的漏洞。英国通过其高级研究与发明机构(ARIA),花费了 5900 万英镑来开发一个“守门员”——一种先进的系统,负责了解和减少在能源、医疗保健和电信等关键领域中其他人工智能代理的风险。英国政府还报道称计划设立一个“AI 安全研究实验室”,旨在汇集政府关于敌对国家使用进攻性 AI 的知识。美国能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。随着攻击面扩大,开发人员加大了对“越狱”的研究。 2024 年人工智能现状: 全球治理的尴尬局面:全球在 AI 治理上的合作就像一场尴尬的华丽晚宴,大家都不知道该说些什么——承诺满天飞,实际行动却寥寥无几。 国家和地区法规的角力:疫情之后,越发魔幻的世界让我产生了世界在玩一种很新的“闭关锁国”,美国和欧盟等国家或地区正在通过有争议的国家层面立法,科技公司在这场与监管巨头的博弈中,还需面对自身可持续性目标的挑战——发展 AI 的排放量简直就像是一场全国范围的 SUV 自驾游,环保得让人哭笑不得。
2025-01-02
2024年《全球人工智能治理研究报告》议题“国家主权原则和人工智能发展”的内容及理解
以下是 2024 年《全球人工智能治理研究报告》中关于“国家主权原则和人工智能发展”的相关内容: 在 2024 年人工智能发展状况的安全与全球治理方面: 英国创建了世界上第一个人工智能安全研究所(AISA),其有三个核心功能:在部署前对高级模型进行评估;建立国家能力并开展研究;协调国际合作伙伴。AISA 还发布了 Inspect 框架用于 LLM 安全评估。英国宣布与美国等效机构签署谅解备忘录,并计划在美国旧金山设立办事处。 英国通过其高级研究与发明机构(ARIA),花费 5900 万英镑开发“守门员”系统,负责了解和减少关键领域中其他人工智能代理的风险。英国政府还计划设立“AI 安全研究实验室”,旨在汇集政府关于敌对国家使用进攻性 AI 的知识。美国能源部利用内部测试床评估人工智能对关键基础设施和能源安全的风险。 在技术和方法方面: 离线直接比对方法不会很快大规模取代 RLHF。谷歌 DeepMind 团队发现 RLHF 在涵盖总结、有用性、对话性等数据集上的测试中胜出,能更有效地改善生成任务。Cohere for AI 探索放弃近端策略优化 RLHF 中的算法,有利于其 RLOO 训练器,可降低 GPU 使用率和提高训练速度。 但 RLHF 存在可能滋生谄媚行为的问题,如 Anthropic 认为 SOTA AI 助手表现出奉承行为是因为人类偏好数据等。开发透明度虽在提高,但仍有很大改进空间。 在安全研究方面: 随着 AI 发展,新功能带来新漏洞,开发人员加大了对“越狱”的研究。OpenAI 提出通过“指令层次结构”修复攻击,Anthropic 表明“警告防御”的潜力,Gray Swan AI 的安全专家试用“断路器”。LLM 测试初创公司 Haize Labs 与 Hugging Face 合作创建首个红队抵抗组织基准。除越狱外,还存在更隐蔽的攻击,潜在攻击面广泛,涵盖从训练到偏好数据和微调等内容。 对于“国家主权原则和人工智能发展”的理解,可能需要综合考虑各国在人工智能安全研究和治理方面的举措,以及技术发展对国家主权可能产生的影响。各国积极建立相关机构和采取措施,表明在人工智能快速发展的背景下,维护国家主权和安全的重要性。同时,技术发展中的问题和挑战也需要各国共同协作应对,以实现人工智能的健康、安全和可持续发展。
2024-12-31
全球人工智能治理报告中的全球人工智能的十大议题,十个议题中选一个写认识理解、研究方向、未来
以下是为您提供的关于全球人工智能治理报告中相关议题的内容: 在“Model Evaluation for Extreme Risks”这一议题中: 认识理解:该议题强调了模型评估在应对极端风险以及在模型的训练、部署和安全方面做出负责任决策的重要性,并详细探讨了网络攻击、欺骗、说服与操纵、政治策略、武器获取、长期规划、AI 开发、情景意识以及自我传播等十个主要风险。 研究方向:深入研究如何更精准地评估模型在极端风险场景下的表现,以及如何基于评估结果优化模型的训练和部署策略,以降低潜在风险。 未来:随着 AI 技术的广泛应用,对于极端风险的模型评估将越发重要,有望形成更加完善和严格的评估标准和方法,以保障 AI 系统的安全可靠运行。 由于您没有明确指定具体的一个议题,以上仅为示例,您可以补充更具体的需求,以便为您提供更精准的回答。
2024-12-18
全球人工智能治理报告
以下是关于全球人工智能治理的相关报告内容: 英国: 创建了世界上第一个人工智能安全研究所(AISA),其有三个核心功能:在部署前对高级模型进行评估;建立国家能力并开展研究;协调国际合作伙伴。 AISA 还发布了 Inspect 框架,用于 LLM 安全评估,涵盖核心知识、推理能力和自主能力等方面。 宣布与美国等效机构签署谅解备忘录,双方同意共同开发测试,并计划在美国旧金山设立办事处。 通过其高级研究与发明机构(ARIA),花费 5900 万英镑开发“守门员”系统,负责了解和减少关键领域中其他人工智能代理的风险。 政府报道称计划设立“AI 安全研究实验室”,旨在汇集政府关于敌对国家使用进攻性 AI 的知识。 美国: 能源部一直在利用其内部测试床评估人工智能可能对关键基础设施和能源安全带来的风险。 大型实验室努力应对欧洲监管。 对中国实施更严格的出口管制和投资限制,商务部要求美国制造商停止向我国半导体制造商进行最先进设施的销售,采取措施阻止或限制中国初创企业的投资,并向国际合作伙伴施压。 欧洲: 《欧盟人工智能法案》获得批准并正式生效,成为世界上第一个全面采用人工智能监管框架的地区,执行将分阶段进行,对“不可接受的风险”的禁令将于 2025 年 2 月生效。 中国: 是第一个开始制定生成式人工智能监管框架的国家,审查机构已介入。 持续生产 SOTA 模型,由国家互联网信息办公室监督。 政府希望模型避免给政治问题提供“错误”答案,发布模型前须提交测试以校准拒绝率。 禁止 Hugging Face 等国外网站访问,但官方批准的“主流价值观语料库”可作为训练数据源。
2024-12-18
“AI治理与法律”的维度
以下是关于“AI 治理与法律”维度的相关内容: 在全球范围内,对于 AI 的立法、监管、伦理讨论大范围落后于技术发展。 美国方面,对于中国的硬件科技限制进一步升级。最先进的 AGI 世界模型不开源,开源模型会落后闭源一个代际,但会服务更广泛的各种专业应用。AGI 将对全行业科技发展起到推动作用,有更好 AGI 的国家会有更快的全面技术进步。 欧洲是目前唯一对 AI 治理有一定讨论的地区,但也大多停留在纸面。 英国的情况是,AI 可能增加不公平偏见或歧视的风险,可能会削弱公众对 AI 的信任。产品安全法确保在英国制造和投放市场的商品是安全的,特定产品的立法可能适用于一些包含集成 AI 的产品,但 AI 技术的特定安全风险应密切监测。消费者权利法可能在消费者签订基于 AI 的产品和服务销售合同时提供保护。 欧盟方面,自 1956 年“人工智能”概念提出后,其理论范围和技术方法不断扩展。2021 年《AI 法案》提案对人工智能的定义更宽泛,而 2022 年《AI 法案》妥协版本中,欧盟理事会及欧洲议会认为“AI 系统”的定义范围应适当缩窄,并侧重强调机器学习的方法。 我国相关法规讨论的出发点完全在于“对于舆论的影响”,根本没有触及 AGI 本身的伦理问题,决策路径大概是政治>经济>>AI 伦理。
2024-10-01
Coze + 飞书 + 飞书多维表格:通过飞书机器人与 Coze 搭建的智能体进行对话,在聊天窗口中完成链接输入和阅读计划输出。由 Coze 调用大模型、插件完成内容的整理、推荐,利用飞书多维表格存储和管理稍后读数据,无需开发任何插件、APP,能实现跨平台的稍后读收集与智能阅读计划的推荐。其设计思路包括简化“收集”,实现跨平台收集和通过输入 URL 完成收集;自动化“整理入库”,自动整理关键信息并支持跨平台查看;智能“选择”推荐,根据收藏记录和用户兴趣生成阅读计划——这个方法具体如何操作?
以下是关于通过飞书机器人与 Coze 搭建的智能体进行对话,并利用飞书多维表格存储和管理稍后读数据,实现跨平台的稍后读收集与智能阅读计划推荐的具体操作方法: 前期准备: 1. 简化“收集”: 实现跨平台收集功能,支持电脑(web 端)、安卓、iOS 多端操作。 输入一个 URL 即可完成收集,借鉴微信文件传输助手的方式,通过聊天窗口完成收集输入。 2. 自动化“整理入库”: 系统在入库时自动整理每条内容的关键信息,包括标题、摘要、作者、发布平台、发布日期、收集时间和阅读状态。 阅读清单支持跨平台查看。 3. 智能“选择”推荐: 根据当前收藏记录和用户阅读兴趣进行相关性匹配,生成阅读计划。 使用飞书·稍后读助手: 1. 设置稍后读存储地址: 首次使用,访问。 点击「更多创建副本」,复制新表格的分享链接。 将新链接发送到智能体对话中。 还可以发送“查询存储位置”、“修改存储位置”来更换飞书多维表格链接,调整稍后读存储位置。 2. 收藏待阅读的页面链接: 在对话中输入需要收藏的页面链接,第一次使用会要求授权共享数据,授权通过后再次输入即可完成收藏。但目前部分页面链接可能小概率保存失败。 3. 智能推荐想看的内容: 在对话中发送“我想看 xx”、“xx 内容”,即可按个人兴趣推荐阅读计划。 至此,专属 AI 稍后读智能体大功告成,您可以尽情享受相关服务。
2025-01-27
AI数据透视工具推荐
以下为您推荐一些可用于数据透视的 AI 工具: 1. Lucidchart:流行的在线绘图工具,支持多种视图创建,包括逻辑视图、功能视图和部署视图,用户可通过拖放界面轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,如逻辑视图(类图、组件图)、功能视图(用例图)和部署视图(部署图)。 3. ArchiMate:开源建模语言,专门用于企业架构,支持逻辑视图创建,可与 Archi 工具配合使用,该工具提供图形化界面创建模型。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持创建多种架构视图,包括逻辑、功能和部署视图。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建逻辑视图、功能视图和部署视图等。 6. draw.io(现称为 diagrams.net):免费的在线图表软件,允许创建各种类型图表,包括软件架构图,支持创建逻辑视图和部署视图等。 7. PlantUML:文本到 UML 的转换工具,通过编写描述性文本自动生成序列图、用例图、类图等,帮助创建逻辑视图。 8. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 9. Archi:免费开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。 以下是一些设计工具的排行及相关数据: |排行|产品名|分类|6 月访问量(万 Visit)|相对 5 月变化| |||||| |1|Canva Al|设计工具|55900|0.123| |2|Adobe Firefly|设计工具|928|0.047| |3|CF Spark|设计工具|885|0.023| |4|Microsoft Designer|设计工具|885|0.321| |5|What font is|设计工具|362|0.045| |6|稿定设计|设计工具|247|0.068| |7|墨刀 AI|设计工具|202|0.148| |8|Hotpot.ai|设计工具|198|0.244| |9|vectorizer.ai|设计工具|183|0.042| |10|Wepik by freepik|设计工具|164|0.304| |排行|产品名|分类|4 月访问量(万 Visit)|相对 3 月变化| |||||| |1|Canva Al|设计工具|58640|0.033| |2|CF Spark|设计工具|940|0.118| |3|Adobe Firefly|设计工具|835|0.051| |4|Microsoft Designer|设计工具|612|0.179| |5|What font is|设计工具|348|0.006| |6|Wepik by freepik|设计工具|284|0.295| |7|Hotpot.ai|设计工具|283|0.024| |8|稿定设计|设计工具|264|0.078| |9|Designs AI|设计工具|185|0.167| |10|墨刀 AI|设计工具|179|0.016|
2025-01-26
如何用最简单的方法,训练一个自有数据的大模型
训练自有数据的大模型可以通过以下步骤实现: 1. 了解大模型的概念:大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用上学参加工作来类比大模型的训练、使用过程,包括找学校(需要大量 GPU 等计算资源)、确定教材(需要大量数据)、找老师(选择合适算法)、就业指导(进行微调)、搬砖(推导)。在 LLM 中,Token 被视为模型处理和生成的文本单位,会对输入进行分词并形成词汇表。 2. 基础训练步骤: 进入厚德云模型训练数据集,如 https://portal.houdeyun.cn/sd/dataset 。 创建数据集:在数据集一栏中,点击右上角创建数据集,输入数据集名称。可以上传包含图片+标签的 zip 文件,也可单独上传照片,但建议提前打包。Zip 文件里图片名称与标签文件应当匹配,上传后等待一段时间确认创建,返回上一个页面等待上传成功并可点击详情检查,能预览数据集的图片及对应的标签。 Lora 训练:点击 Flux,基础模型会默认是 FLUX 1.0D 版本。选择数据集,触发词可有可无,模型效果预览提示词随机抽取数据集里的标签填入。训练参数可调节重复次数与训练轮数,厚德云会自动计算训练步数,可默认 20 重复次数和 10 轮训练轮数,按需求选择是否加速,点击开始训练,会显示所需消耗的算力,等待训练完成,会显示每一轮的预览图,鼠标悬浮到想要的轮次模型,中间会有生图,点击可自动跳转到使用此 lora 生图的界面,点击下方下载按钮可自动下载到本地。 3. 部署和训练自己的 AI 开源模型的主要步骤: 选择合适的部署方式,如本地环境部署、云计算平台部署、分布式部署、模型压缩和量化、公共云服务商部署,根据自身资源、安全和性能需求选择。 准备训练所需的数据和计算资源,确保有足够的训练数据覆盖目标应用场景,并准备足够的计算资源,如 GPU 服务器或云计算资源。 选择合适的预训练模型作为基础,如开源的预训练模型 BERT、GPT 等,也可自行训练基础模型。 针对目标任务进行模型微调训练,根据具体应用场景对预训练模型进行微调训练,优化模型结构和训练过程以提高性能。 部署和调试模型,将训练好的模型部署到生产环境,对部署的模型进行在线调试和性能优化。 注意安全性和隐私保护,大模型涉及大量数据和隐私信息,需要重视安全性和合规性。 总的来说,训练自有数据的大模型需要综合考虑多方面因素,包括部署方式、数据准备、模型训练、部署调试以及安全性等。需要根据具体需求选择合适的方法,并注意优化各个环节以提高模型性能和应用效果。
2025-01-24
我是一名数据产品经理,想转行ai产品经理,该从哪里入手。你的知识库里有哪些可以帮到我。最好把他们列举出来,具体一些最好有步骤
以下是为您整理的从数据产品经理转行 AI 产品经理的相关知识和建议: 一、AIPM 技能树 1. 理解产品核心技术 了解基本的机器学习算法原理,有助于做出更合理的产品决策。 2. 与技术团队有效沟通 掌握一定的算法知识,减少信息不对称带来的误解。 3. 评估技术可行性 在产品规划阶段,能更准确地判断某些功能的技术可行性。 4. 把握产品发展方向 了解算法前沿,更好地把握产品的未来发展方向。 5. 提升产品竞争力 发现产品的独特优势,提出创新的产品特性。 6. 数据分析能力 掌握相关知识,提升数据分析能力。 二、AI 提示词工程师岗位技能要求 1. 学历和专业背景 本科及以上学历,计算机科学、人工智能、机器学习相关专业背景。 2. 熟悉 AI 工具 熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验。 熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 3. 项目经验 负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法。 4. 技术理解 了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等)。 5. 数据分析与决策 对数据驱动的决策有深入的理解,能够基于数据分析做出决策。 6. 创新思维 具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案。 7. 技术关注 对 AI 技术与算法领域抱有强烈的好奇心,并能付诸实践。 对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注。 8. 编程能力 具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成。 具有一定的编程基础,熟练使用 Python、Git 等工具。 三、AI 市场与 AI 产品经理分析 当前有两个场景: 1. 企业(包括传统企业和互联网企业)如何实现 AI 转型或用好 AI。 2. 产品经理如何转型 AI 产品经理。 希望以上内容对您有所帮助。
2025-01-21
推荐一个数据分析的AI产品
以下为您推荐一些数据分析的 AI 产品: 1. PandasAI:让 Pandas DataFrame“学会说人话”的工具,用户可以以 Pandas DataFrame 的形式提出有关数据的问题,它会以自然语言、表格或者图表等形式进行回答。目前仅支持 GPT 模型,OpenAI API key 需自备。链接:https://github.com/gventuri/pandasai 2. DataSquirrel:自动进行数据清理并可视化执行过程,帮助用户在无需公式、宏或代码的情况下快速将原始数据转化为可使用的分析/报告。目前平台提供的用例涵盖了 B2B 电子商务、人力资源、财务会计和调查数据分析行业,并符合 GDPR/PDPA 标准。链接:https://datasquirrel.ai/ 3. 医渡云病历分析系统:利用 AI 分析医疗病历中的症状、检查结果等信息,为医生提供辅助诊断建议。 4. 讯飞听见会议总结功能:在会议中利用 AI 自动总结发言者的主要观点和重点内容,方便回顾和整理。
2025-01-21