Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

识别手写字体

Answer

识别手写字体通常会涉及到神经网络的应用。对于印刷体图片的识别,可能会先将图片变为黑白、调整大小为固定尺寸,然后与数据库中的内容进行对比得出结论。但这种方法在面对多种字体、不同拍摄角度等复杂情况时存在局限性,因为它本质上是通过不断增加和完善规则来解决问题,这在处理未知规则时是不可行的。

神经网络专门处理未知规则的情况,例如手写体识别。其发展得益于生物学研究的支持,并在数学上提供了方向。

在字体测试方面,会使用多组提示词来测试不同类型字体的识别及输出能力,比如分别测试衬线体、非衬线体、手写体的“Hello”文本,或者在不同的文本载体(如打印纸、名片、贺卡)上用不同特色字体书写内容,以及在不同场景中用不同形容词形容特定字体(如活跃海报、赛博朋克、复古风)。

在一些相关设置中,如果文字识别度低,可以提高 ControlNet 权重,若想让文字和背景融合更好则降低权重。

Content generated by AI large model, please carefully verify (powered by aily)

References

学习笔记:【这就是 ChatGPT】了解原理让大语言模型 AI 成为你的打工人

如果识别一个印刷体图片,我可能会怎么做神经网络解决的是未知规则的处理。先把图片都变成黑白大小变成固定尺寸和数据库的东西对比得出结论然而,这种情况过于理想化。不仅存在多种字体,即使对于印刷体,不同的拍摄角度也引入了多种例外情况。虽然存在图形算法进行矫正,但整体方法仍然是基于不断添加规则。这种方法本质上是试图通过不断增加和完善规则来解决问题,这显然是不可行的。虽然这种方法可以解决象棋的问题,但对围棋来说就非常困难了。围棋的每个节点有三种可能状态:白、黑或空,加上不同节点间状态的组合,现有的资源无法应对。神经网络专门处理未知规则的情况。将图片转换为黑白,调整图片至固定尺寸,与数据库中的内容进行对比,最终得出结论。神经网络的发展得益于生物学研究的支持,并且在数学上提供了一种方向,使其能够处理未知的情况,如手写体识别。关于这部分内容,非常建议看《这就是ChatGPT》这本书,它的作者是被称为”在世的最聪明的人”,研究神经网络几十年,创作了Mathematica、Wolfram等备受推崇的软件,这本书最特别之处还在于,导读序是美团技术学院院长刘江老师回顾了整个AI技术发展的历史,对于了解AI,大语言模型计算路线的发展,起到提纲挈领的作用,非常值得一读。本文写作过程中得到了[byzer-llm](https://github.com/allwefantasy/byzer-llm)作者祝威廉的大力支持,在此感谢。byzer-llm选择了一个非常特别的技术路线,在大模型时代显得尤为重要。

MJ新发力--v6.0文字生成效果测试

使用三组提示词,分别测试不同类型字体的识别及输出能力。要求在一张纸上画出【手写体(花体)、印刷衬线体、印刷无衬线体】的相应文字"Hello";给定文本载体【打印纸、名片、贺卡】,要求用不同的特色字体书写内容;给定不同场景,要求在场景里出现"AICan"字样,并用不同形容词来形容字体【活跃海报、赛博朋克、复古风】第一组测试衬线体、非衬线体、手写体的"Hello"文本(图1)A piece of paper on the table.A black word on paper,written in typographic serif"Hello!"--ar 16:9--v 6.0(图2)A piece of paper on the table.A black word on paper,written in typographic sans serif"Hello!"--ar 16:9--v 6.0(图3)A piece of paper on the table.A black word on paper,written in cursive"Hello!"--ar 16:9--v 6.0第二组测试打印纸和Good Morning;名片与AICan;贺卡与Happy Birthday(图1)There is paper and printer on the table.Print out the words"Good morning"in black,office environment.--ar 16:9--v 6.0(图2)There is a business card on the table.The business card has a black word"AICan"written on it,which is full of design.--ar 16:9--v 6.0(图3)There is a white greeting card on the table.The words"Happy Birthday"were written on the card in black pen.Simple and warm.--ar 16:9--v 6.0

教程:10_夏至

(如果文字识别度低,提高cn权重,想让文字和背景融合的更好降低权重)自己可以试试其他的cn模型预处理器:invert(from white bg&black line)模型:control_v11f1p_sd15_depth权重:0.85手写黑白字体设计:(左边2张:ཉི叶承欢)(最右边:Zoefoxxxy🦊)[heading2]作业帖在下面的评论区❤️,[content]有问题也可以在评论区回复,看见会回复的。

Others are asking
有没有把文档变成手写字体的ai工具?
目前市面上有一些可以将文档转换为手写字体的 AI 工具,例如: 1. Handwriting.io:它能够根据输入的文本生成逼真的手写字体效果。 2. MyScriptFont:用户可以通过书写样本创建自己的手写字体,并应用于文档转换。 但不同工具的功能和效果可能会有所差异,您可以根据具体需求进行选择和尝试。
2024-12-25
手写字照片转文本的工具
目前暂时没有关于手写字照片转文本工具的相关内容。但您可以通过以下几种常见的方式来实现这一功能: 1. 利用手机端的扫描应用,如扫描全能王等,它们通常具备将手写文字照片转换为文本的功能。 2. 部分办公软件也有类似功能,例如 WPS 中的扫描功能。 3. 在线工具如百度 OCR 等,也能对图片中的手写文字进行识别和转换。
2024-10-15
有没有能将文档生成手写文字的al
目前暂时没有能直接将文档生成手写文字的通用 AI 工具。但随着技术的不断发展,未来可能会出现相关的创新应用。
2024-09-23
有没有扫描手写文稿生成电子文稿的工具?
目前有多种可以扫描手写文稿生成电子文稿的工具,例如: 1. 扫描全能王:功能强大,能较好地识别手写文字并转换为电子文稿。 2. 白描:识别准确率较高,操作相对简单。 您可以根据自己的需求和使用习惯选择适合的工具。
2024-08-21
coze上OCR识别手写插件推荐
Coze 上 OCR 识别手写插件推荐 Simple OCR:该插件可以识别图片中的文字,并返回识别结果。这个插件非常适合用于读取用户上传的图片或文件中的文字,并将其返回给用户或进行相应的处理。
2024-05-23
撰写一篇汽车领域人工智能自动驾驶应用系统方案,参照以下要求:(1) 选题应为课程相关的技术或者原理的应用。 (2) 重点撰写第2部分技术与服务,必须要使用到课程中所学到或者相关技术。 (3) 第6部分财务分析可根据情况适当缩减。 (4) 整体架构可以根据选题进行调整,可适当增加章节或者删减。 (5) 字体大小、标题等必须和模板相同。篇幅20页以上,不少于10000字,小四,宋体。 以下为一篇样稿,可参考其框架撰写 城市智能停车服务系统建设方案 目 录 1 项目背景 1 1.1 项目背景
以下是为您撰写的汽车领域人工智能自动驾驶应用系统方案的部分内容,您可以根据实际需求进行进一步的完善和补充: 一、项目背景 人工智能在汽车行业的应用已经十分广泛,正在深刻改变汽车的各个方面。自动驾驶技术利用 AI 进行图像识别、传感器数据分析和决策制定,使汽车能够自主导航和驾驶,如特斯拉、Waymo 和 Cruise 等公司都在积极开发和测试自动驾驶汽车。车辆安全系统中,AI 用于增强自动紧急制动、车道保持辅助和盲点检测等功能,通过分析摄像头和传感器数据预防事故。个性化用户体验方面,AI 可根据驾驶员偏好调整车辆设置,包括座椅位置、音乐选择和导航系统。预测性维护通过分析车辆实时数据,预测潜在故障和维护需求,提高车辆可靠性和效率。在汽车制造中,AI 用于自动化生产线,优化生产流程和质量控制。汽车销售和市场分析中,AI 帮助分析市场趋势、消费者行为和销售数据,优化营销策略和产品定价。电动化和能源管理方面,AI 在电动汽车的电池管理和充电策略中发挥作用,提高能源效率和延长电池寿命。共享出行服务借助 AI 优化路线规划、车辆调度和定价策略,提升服务效率和用户满意度。语音助手和车载娱乐由 AI 驱动,允许驾驶员通过语音控制车辆功能、获取信息和娱乐内容。车辆远程监控和诊断利用 AI 系统远程监控车辆状态,提供实时诊断和支持。 二、技术与服务 1. 自动驾驶技术 传感器融合:采用多种传感器,如激光雷达、摄像头、毫米波雷达等,收集车辆周围环境信息。利用 AI 算法对这些多源数据进行融合和分析,提高环境感知的准确性和可靠性。 深度学习决策:基于深度神经网络,训练车辆的决策模型。通过大量的真实驾驶数据,让模型学习如何在各种复杂场景下做出最优的驾驶决策,如加速、减速、转向等。 模拟训练:利用虚拟仿真环境进行大规模的自动驾驶训练。在模拟环境中,可以快速生成各种复杂和罕见的交通场景,加速模型的训练和优化。 2. 车辆安全系统 实时监测与预警:利用 AI 实时分析来自车辆传感器的数据,如车速、加速度、转向角度等,以及外部环境信息,如道路状况、天气条件等。当检测到潜在的危险情况时,及时向驾驶员发出预警。 自动紧急制动:基于 AI 的图像识别和距离检测技术,当判断车辆即将与前方障碍物发生碰撞且驾驶员未采取制动措施时,自动启动紧急制动系统,降低事故风险。 3. 个性化用户体验 偏好学习:通过收集驾驶员的日常操作数据,如座椅调整习惯、音乐播放喜好、常用导航路线等,利用机器学习算法分析和学习驾驶员的偏好模式。 智能推荐:根据学习到的偏好,为驾驶员提供个性化的推荐,如座椅自动调整、音乐推荐、导航路线规划等。 4. 预测性维护 数据采集与分析:安装各类传感器收集车辆的运行数据,如发动机转速、油温、轮胎压力等。利用 AI 算法对这些数据进行分析,挖掘潜在的故障模式和趋势。 故障预测模型:建立基于机器学习的故障预测模型,提前预测可能出现的故障,并及时通知驾驶员和维修人员,安排预防性维护。 5. 生产自动化 质量检测:利用机器视觉技术和 AI 算法,对生产线上的汽车零部件进行自动检测,识别缺陷和瑕疵,提高产品质量。 生产流程优化:通过分析生产数据,如设备运行状态、生产节拍等,利用 AI 优化生产流程,提高生产效率,降低生产成本。 三、财务分析(可根据情况适当缩减) 1. 初始投资 技术研发费用:包括自动驾驶算法开发、硬件设备采购、测试场地建设等方面的费用。 车辆改装和设备安装成本:为实现自动驾驶功能,对车辆进行改装和安装相关传感器、计算设备等的成本。 2. 运营成本 数据采集和处理费用:持续收集车辆运行数据和环境数据,并进行处理和分析的费用。 维护和升级成本:对自动驾驶系统进行定期维护、软件升级和硬件更换的费用。 3. 收益来源 车辆销售增值:配备自动驾驶和智能功能的汽车可以提高售价,增加销售收入。 服务订阅费用:为用户提供个性化服务、远程监控和诊断等服务的订阅收费。 4. 盈利预测 根据市场需求、成本控制和收益增长情况,进行短期和长期的盈利预测。 以上内容仅供参考,您可以根据具体的项目需求和实际情况进一步完善和细化各个部分。
2024-12-27
有没有艺术字体生成的ai模型
以下为您介绍一些艺术字体生成的 AI 模型: 1. 即梦:上线了 2.1 图片模型,可以生成中英文字体,还能生成海报、带字表情包、漫画等。网址:https://jimeng.jianying.com/aitool/image/generate 。 2. 像 Stable Diffusion 这样的模型,任何会打字的人都可以使用,在几分钟内以数量级更低的成本产生高质量、独一无二的图像。 此外,关于生成式 AI 在艺术领域的应用,还有一些相关的观点和讨论: 与普遍认为“创造力将是人类智慧的最后堡垒”相反,实际上将困难的创造性任务自动化似乎比将简单的编程任务自动化要容易得多。例如在代码生成和图像生成的比较中,虽然像 GitHub Copilot 这样的产品能使编码更高效,但不能消除对有编程知识的软件开发人员的需求,因为程序的正确性很重要,而 AI 生成的程序仍需人工验证。但在图像生成方面,任何会打字的人都能使用像 Stable Diffusion 这样的模型快速生成高质量图像。在依赖创意视觉效果的行业中,由于 AI 能产生足够好的视觉效果,可能会看到完全的阶段转变。 原文地址:https://a16z.com/2022/11/16/creativityasanapp/ 作者:Guido Appenzeller,Matt Bornstein,Martin Casado,Yoko Li 发表时间:2022 年 11 月 16 日 翻译:通往 AGI 之路
2024-12-13
能进行字体设计的ai
以下是一些能进行字体设计的 AI 工具及相关信息: Ideogram 2.0: 在生成图像时,不使用真实字体,而是通过学习大量文字图像及其风格来生成。 可能存在字体版权问题。 生成的图像有时会有字体相关错误,可通过再次生成提示、使用编辑器修改、上传包含所需文本的图像等方式纠正。 使用 0.2 或 1.0 版本可能更稳定。 SD(StableDiffusion): 找到喜欢的字体并写上主题,如“端午”。 打开 SD 选择文生图,输入关键词咒语。 启用 Controlnet 的 lineart 和 canny 固定字体,如需景深效果可打开 depth。 打开高清修复,设置分辨率和步数后生成。 此外,以下是一些 AI 海报生成工具,也可能具备字体设计相关功能: Canva(可画):https://www.canva.cn/ ,提供大量模板和设计元素,AI 功能可辅助选择颜色搭配和字体样式。 稿定设计:https://www.gaoding.com/ ,智能设计工具能自动分析和生成设计方案。 VistaCreate:https://create.vista.com/ ,提供大量设计模板和元素,AI 工具可创建个性化海报,智能建议功能可帮助找到合适设计元素。 Microsoft Designer:https://designer.microsoft.com/ ,通过简单拖放界面创建内容,集成丰富模板库和自动图像编辑功能。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-29
字体设计的ai软件有哪些
以下是一些常见的用于字体设计的 AI 软件: 1. Ideogram 2.0:在生成图像时,AI 通过学习大量文字图像及其风格来生成文字,可能存在字体版权问题、字体生成错误等情况,可通过多次生成提示、使用编辑器修改或重新混合图像等方式纠正。 2. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括字体设计相关的视图,用户可通过拖放界面轻松操作。 3. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,包括与字体设计相关的逻辑视图、功能视图等。 4. ArchiMate:开源的建模语言,专门用于企业架构,支持逻辑视图创建,可与 Archi 工具配合使用。 5. Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图的创建。 6. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于字体设计相关视图创建。 7. draw.io(现称为 diagrams.net):免费的在线图表软件,支持创建逻辑视图和部署视图等。 8. PlantUML:文本到 UML 的转换工具,可通过编写描述性文本自动生成相关视图。 9. Gliffy:基于云的绘图工具,提供创建各种架构图的功能。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括与字体设计相关的逻辑视图和部署视图。
2024-11-29
怎么用ai设计字体
以下是使用 AI 设计字体的一些方法: 1. 在 PS 中制作白底黑字且字体设计美观流畅的字,比如“冬”字。 2. 进入 SD 选择真实系模型,使用常规起手式加场景描述的关键词,例如: 大模型:realisticVisionV40 正面关键词:masterpiece, best quality, snowy ground, snowflake 反面关键词:lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry 3. 关键的一点是使用 controlnet 的语义分割 seg 模型,预处理器选择 invert。seg 模型主要用于分区绘制,在没有对应的语义颜色时会根据提示词绘制。比如在只输入雪地的情况下,文字和非文字的地方都会显示雪,中间的分割会显示出文字的轮廓。 4. 对于中秋快乐相关的字体设计,设置文生图提示词: 大模型:majicmixRealistic_betterV2V25.safetensors 正向提示词:cloud, a huge full moon, a bright moon rises from the sea, water, starry_sky, from below, Fujifilm, UHD, super detail, award winning, best quality, <lora:CG 古风大场景类_v2.0:0.8> 负向提示词:nsfw, EasyNegative, drawn by badartist, sketch by badartistanime, , monochrome 5. 设置参数: 迭代步数:30 采样方法:DPM++ SDE Karras 尺寸:512×768px 总批次数:10 6. 设置 ControlNet 参数: 控制类型:tile_resample 模型:control_v11f1e_sd15_tile 控制权重:0.75 7. 刷图、局部重绘修月亮、优化细节放大,使用 tile 模型加 Ultimate SD upscale 放大脚本,完成后放入 PS 排版。
2024-11-29
剪映能识别文生视频的脚本后生成视频吗
剪映可以与 ChatGPT 结合使用来根据视频脚本生成视频。ChatGPT 生成视频脚本,剪映则能自动分析脚本中的场景、角色、镜头等要素,并生成对应的素材和文本框架,从而实现从文字到画面的转化,节省时间和精力。 此外,还有以下一些根据视频脚本生成短视频的工具: 1. PixVerse AI:在线 AI 视频生成工具,支持将多模态输入(如图像、文本、音频)转化为视频。8s 的视频生成需要花费 30Credits,5s 的视频生成需要花费 15Credits,且只能使用 PixVerse V2 模型,目前仅支持 16:9 画面比例的视频生成。PixVerse V2 支持多风格的视频生成,您可以通过在提示词中加入“Anime”“Realistic”等词语做到这点。 2. Pictory:这是一个 AI 视频生成器,允许用户轻松创建和编辑高质量视频,无需视频编辑或设计经验。用户可以提供文本描述,Pictory 将帮助生成相应的视频内容。 3. VEED.IO:提供了 AI 图像生成器和 AI 脚本生成器,帮助用户从图像制作视频,并规划从开场到结尾的内容。 4. Runway:这是一个 AI 视频创作工具,能够将文本转化为风格化的视频内容,适用于多种应用场景。 5. 艺映 AI:专注于人工智能视频领域,提供文生视频、图生视频、视频转漫等服务,用户可以根据文本脚本生成视频。 这些工具各有特点,适用于不同的应用场景和需求,能够帮助内容创作者、教育工作者、企业和个人快速生成吸引人的视频内容。内容由 AI 大模型生成,请仔细甄别。
2025-01-14
怎样提高ai识别题库准确性
要提高 AI 识别题库的准确性,可以从以下几个方面入手: 1. 检索原理方面: 信息筛选与确认:对检索器提供的信息进行评估,筛选出最相关和最可信的内容,同时验证信息的来源、时效性和相关性。 消除冗余:识别并去除多个文档或数据源中的重复信息,避免在生成回答时出现重复或矛盾的内容。 关系映射:分析不同信息片段之间的逻辑和事实关系,如因果、对比、顺序等,构建结构化的知识框架,使信息在语义上更连贯。 上下文构建:将筛选和结构化的信息组织成连贯的上下文环境,包括对信息进行排序、归类和整合。 语义融合:在必要时合并意义相近但表达不同的信息片段,减少语义重复并增强信息表达力。 预备生成阶段:将整合好的上下文信息编码成适合生成器处理的格式,如转化为适合输入到生成模型的向量形式。 2. 知识库方面: 知识库中的文档需要转换成向量形式,以便在数值级别上与问题向量进行比较。使用知识库工具上传文档时,会完成文档的向量化,这依靠 Embedding Model 完成。 知识库检索:根据问题向量,检索器在庞大的向量空间中搜索相关内容,通过相似性计算(如余弦相似性)找出与问题最接近的文档,再根据相似性得分排序并选择得分最高的几个文档,从中抽取具体的信息片段或答案。 3. 信息整合阶段:将检索到的全部信息连同用户问题和系统预设整合成全新的上下文环境,为生成回答提供基础。 RAG(RetrievalAugmented Generation,检索增强生成)是一种结合信息检索和文本生成能力的技术,由检索器和生成器组成。检索器从外部知识中快速找到与问题相关的信息,生成器利用这些信息制作精确和连贯的答案,适合处理需要广泛知识的任务,如问答系统。
2025-01-10
怎样提高ai识别文档准确性
以下是一些提高 AI 识别文档准确性的方法: 1. 对于过期的文档,在标题里加上【已废弃】【已过期】等字眼,这样在召回排序过程中会被过滤掉,避免影响答案的准确性。 2. 现阶段尽量使用普通文本进行描述,避免过多表格、图片等内容。当前文档里插入的表格内容虽然能被 AI 识别,但识别效果还在提升中,图片等内容还不支持识别。随着技术发展,这些局限会逐渐消除。 3. 文档的标题内容需要跟正文有强相关性,因为召回排序的逻辑里文档总标题在相似度计算中占有较高权重。 4. 不同的知识点尽量分段书写、合理控制段落长度。不同的主题通过文档内的子标题进行区分,子标题下正文里每个段落最好对应一个明确的知识点,每个段落尽量不超过 500 字,避免段落过长在文档分割时导致主题打散。 5. 对于经常被问到的内容,可以写成问答对(FAQ)的格式,当用户提出相关问题时,包含该问答对的片段在召回排序里会更靠前,给出的答案也更准确。
2025-01-10
隐喻识别领域的ai
在隐喻识别领域,以下是一些相关的 AI 内容: 麒鸣提出将比喻相关的 prompt 融入工作流,能更高效训练智能体,改进大语言模型,探索新应用领域,突破单纯依赖算法的方式,实现低成本、高效能和模型效益最大化。 拘灵遣将的观点认为,对于不具备理工科背景的文科生,可将 AI 视为黑箱,只知其是能理解和输出自然语言的东西。AI 与传统道教的驱神役鬼拘灵遣将有相似之处,都是通过特定文字、仪轨程式引用资源达成预设效果,且都可能突破界限。与 AI 相处时,要基于其“非人”一面,通过清晰语言文字压缩其自由度,明确告知任务、边界、目标、实现路径方法和所需知识。 关于在医疗保健中应用 AI,开发具有潜在空间层次结构的堆叠 AI 模型能帮助其理解模式和关系,这最初可能与人类教育范例平行,之后会专门发展以培养新型专业知识。创建特定领域如医疗保健的专家 AI 可能比创建全能 AI 更容易,预计会创造许多采用多样化方法的专家 AI。同时,应让 AI 脱离在线基础,投入现实世界,让人类专家配备可穿戴设备收集互动供其学习,避免复制危险偏见,不能因恐惧传播人类偏见而限制探索 AI 如何帮助民主化专家知识。
2025-01-07
哪款AI的图片识别能力最强
目前在图像识别能力方面,OpenAI 的 GPT4 表现较为出色。例如,左边的图片展示了 1 万亿参数的 GPT4 在图像识别方面的能力,其回应比许多人类所能想出的更加清晰和准确。但需要注意的是,图像识别能力的评估会受到多种因素的影响,不同的应用场景和需求可能会导致不同的结果。同时,像 MiniMax 视频模型在图像识别和处理方面也有一定的特点,它不仅可以准确识别用户上传的图片,还能在光影、色调等方面实现完美嵌入新场景的设定。
2025-01-07
Video-LLaVA与多模态图像视频识别
以下是对 26 个多模态大模型的全面比较总结: 1. Flamingo:是一系列视觉语言(VL)模型,能处理交错的视觉数据和文本,并生成自由格式的文本作为输出。 2. BLIP2:引入资源效率更高的框架,包括用于弥补模态差距的轻量级 QFormer,能利用冻结的 LLM 进行零样本图像到文本的生成。 3. LLaVA:率先将 IT 技术应用到多模态(MM)领域,为解决数据稀缺问题,引入使用 ChatGPT/GPT4 创建的新型开源 MM 指令跟踪数据集及基准 LLaVABench。 4. MiniGPT4:提出简化方法,仅训练一个线性层即可将预训练的视觉编码器与 LLM 对齐,能复制 GPT4 展示的功能。 5. mPLUGOwl:提出新颖的 MMLLMs 模块化训练框架,结合视觉上下文,包含用于评估的 OwlEval 教学评估数据集。 6. XLLM:陈等人将其扩展到包括音频在内的各种模式,具有强大的可扩展性,利用 QFormer 的语言可迁移性成功应用于汉藏语境。 7. VideoChat:开创高效的以聊天为中心的 MMLLM 用于视频理解对话,为该领域未来研究制定标准,并为学术界和工业界提供协议。
2025-01-07