以下是为您整理的关于斯坦福 AI 相关的内容:
[On the opportunities and risks of foundation models](https://arxiv.org/abs/2108.07258):斯坦福大学对基础模型的概述论文。这篇论文内容丰富,观点鲜明,为“基础模型”这一术语的形成起到了关键作用。[State of AI Report](https://www.stateof.ai/):这是一个年度回顾,涵盖了AI领域的所有事物,包括技术突破、产业发展、政策/法规、经济影响、安全性以及对未来的预测。[GPTs is GPTs:An early look at the labour market impact potential of large language models](https://arxiv.org/abs/2303.10130):对大型语言模型(LLMs)在劳动力市场潜在影响的早期研究:OpenAI、OpenResearch以及宾夕法尼亚大学的研究人员在这篇论文中预测,“在LLMs的引入后,大约80%的美国劳动力可能至少有10%的工作任务会受到影响,同时约19%的工作者可能会有至少50%的任务受到影响。”[Deep medicine:How artificial intelligence can make healthcare human again](https://www.amazon.com/Deep-Medicine-Eric-Topol-audiobook/dp/B07PJ21V5N/ref=sr_1_1?hvadid=580688888836&hvdev=c&hvlocphy=9031955&hvnetw=g&hvqmt=e&hvrand=13698160037271563598&hvtargid=kwd-646099228782&hydadcr=15524_13517408&keywords=eric+topol+deep+medicine&qid=1684965845&sr=8-1):Eric Topol医生揭示了人工智能如何有可能将医生从耗费大量时间的任务中解放出来,从而不会干扰到人与人之间的连接。这使得医生和病人之间的关系得到恢复。([a16z播客](https://a16z.com/2019/06/13/ai-doctor-deep-medicine-topol/))
苹果Vision Pro成为必备的机器人研究工具尽管消费者对Vision Pro的需求平淡无奇,但它在机器人研究领域引起了轰动,在那里其高分辨率、高级跟踪和处理能力被研究人员用于远程操作控制机器人的运动和动作。如Open-TeleVision和Bunny-Vision Pro使用它来帮助实现精确控制多指机械手(例如前者距离为3000英里),展示比以前的方法更复杂的任务的改进性能,如实时控制、通过碰撞避免的安全性和有效的双臂协调。在医学中利用大模型生成合成数据微调Stable Diffusion中的U-Net和CLIP文本编码器,从大量真实胸部X射线(CXR)及其相应的放射科医生报告中生成一个大型数据集,从而产生由权威放射科医生评估为高保真度和概念正确性的合成CXR扫描数据,并且生成的X射线图像可用于数据增强和自监督学习。企业自动化获得人工智能后将优先升级传统的机器人流程自动化(RPA),如UiPath,面临着高昂的设置成本、脆弱的执行和繁重的维护。两个新颖的方法,FlowMind(JP Morgan)和ECLAIR(斯坦福大学),使用基础模型来解决这些限制。FlowMind专注于金融工作流,通过API使用LLM来生成可执行的工作流。在对NCEN-QA数据集进行实验时,FlowMind在工作流理解方面达到了99.5%的准确率。ECLAIR采取了更广泛的方法,使用多模态模型从演示中学习,并直接与各种企业环境中的图形用户界面交互。在网页导航任务上,ECLAIR将完成率提高了从0%到40%。
Stanford大学HAI小组在AI Index 2024报告中展示了一张AI完成人类任务的基准测试图(Our World in Data网站还有一份互动版)。截至2023年,AI在大部分任务中的表现已经超越了人类的能力,例如2015年的图像分类、2017年的基础阅读理解、2020年的视觉推理和2021年的自然语言推理。当然在2020年之后,完成这些任务的都是大语言模型了,目前人类只有在复杂的认知任务,例如在深度阅读理解、复杂推理和高级数学问题解决上还有那么一点优势,但估计这个优势在2025年就荡然无存了。。世界模型研究人员目前也只能从数学方法证明规模法则的有效性,并不能解释复杂神经网络背后的秘密。但伊利亚有一个信念:“如果你能够高效地压缩信息,你就已经得到了知识,不然你没法压缩信息”。所以他坚信最新的GPT-4里面已经有了一个世界模型,虽然它们做的事情是预测下一个单词,但它已经表达了世界的信息,而且它还能够持续提高能力!在ChatGPT刚推出不久,Newyorker刊登过一篇有趣的文章《ChatGPT Is a Blurry JPEG of the Web》很形象但不是那么准确的解释了大语言模型是对Web世界模糊的“图像压缩”。这些模型通过分析和学习大量的文本数据,构建起对世界的压缩表述,涵盖了人类的思想、情感、状态以及人与人之间的互动。大语言模型内化的世界模型能够在推理过程中模拟可能的结果空间,为规划算法提供探索的机会,并给出它想象的答案。从语言到多模态模型