以下是关于测试集的相关信息:
🫧宝玉日报「10月18日」✨✨✨✨✨✨✨✨1⃣️🎬Meta开源视频生成模型的测试集:Movie Gen Video Bench和Audio BenchMovie Gen Video Bench:目前规模最大、最全面的视频生成评估基准,包含1000多个提示词,涵盖人类活动、动物、自然景象、物理现象等概念,并有高、中、低运动幅度的测试。Movie Gen Audio Bench:评估视频音效生成及视频配音能力,包含527个视频及相应的音效和音乐提示。🔗[https://x.com/op7418/status/1847121108874809381](https://x.com/op7418/status/1847121108874809381)2⃣️📝OpenAI Canvas新增历史版本对比功能基于服务端实现,可以查看项目的历史版本并进行对比,方便追踪和管理内容的变化。🔗[https://x.com/OpenAI/status/1847016089202610235](https://x.com/OpenAI/status/1847016089202610235)🔗[https://x.com/dotey/status/1847117889641292114](https://x.com/dotey/status/1847117889641292114)3⃣️🎙️OpenAI发布gpt-4o-audio-preview模型,支持异步语音交互
对大模型研发机构及应用开发者,为优化模型和场景应用提供了相对全面的视角。测评方法持续扩充C L U E测评组OPEN在一个确定的评估标准指导下,OPEN基准使用超级模型作为评判官,使用一个待评估模型与一个基准模型进行对比,让超级模型选出A模型好,B模型好,或平局。进而计算胜和率作为OPEN得分。为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共4273题,其中1060道多轮简答题(OPEN),3213道客观选择题(OPT),以下为评测集与测评方法简述。评测反馈10万+题库被测模型A(如文心一言)VS多轮基线模型B(如GPT3.5)SuperCLUE总分不重复抽样5000原始评测集裁判模型(如GPT4-Turbo)胜(3分)、和(1分)、负(0分)OPEN分=胜和率=0.7*OPEN分+0.3*OPT分人工校验4273道评测题OPT
[User_and_product_embeddings.ipynb](https://github.com/openai/openai-cookbook/blob/main/examples/User_and_product_embeddings.ipynb)我们可以通过对他们的所有评论进行平均来获得用户嵌入。同样,我们可以通过对有关该产品的所有评论进行平均来获得产品嵌入。为了展示这种方法的实用性,我们使用50k评论的子集来覆盖每个用户和每个产品的更多评论。我们在单独的测试集上评估这些嵌入的有用性,我们将用户和产品嵌入的相似性绘制为评分的函数。有趣的是,基于这种方法,甚至在用户收到产品之前,我们就可以比随机预测更好地预测他们是否喜欢该产品。[heading3]聚类[content][Clustering.ipynb](https://github.com/openai/openai-cookbook/blob/main/examples/Clustering.ipynb)聚类是理解大量文本数据的一种方式。嵌入对于这项任务很有用,因为它们提供了每个文本的语义上有意义的向量表示。因此,以一种无监督的方式,聚类将揭示我们数据集中隐藏的分组。在这个例子中,我们发现了四个不同的集群:一个专注于狗食,一个专注于负面评论,两个专注于正面评论。[heading3]使用嵌入的文本搜索[content][Semantic_text_search_using_embeddings.ipynb](https://github.com/openai/openai-cookbook/blob/main/examples/Semantic_text_search_using_embeddings.ipynb)为了检索最相关的文档,我们使用查询的嵌入向量与每个文档之间的余弦相似度,并返回得分最高的文档。