以下是关于写文章相关的大模型的一些信息:
这里不是绝对唯一答案,因为很多CN模型能实现相似效果,或者更有故事性的效果的。以比较容易出效果为例:将字体参考图放进ControlNet中,预处理器选择invert(from white bg&black line),注意控制类型就不要选择预设的了,因为很有可能处理模型不是一一对应的。invert比较适合完全还原字体的细节。当然如果字形本身识别度很高的话,也可以使用Canny等模型。选好预处理可以点击💥按钮预览一下。然后选择Control模型,可以选择Depth景深模型,也可以选择Scribble涂鸦模型,使用Canny描边的预处理这里也可以用Canny的模型,但控制力稍差。选择好之后,记得点击启用,开启ControlNet。[heading1]选择生图大模型[content]插件暂时简单的设置完毕,要选择生图模型了,大模型决定了我们的最终的风格,是真实系,是动画二次元,还是什么,这决定你对模型熟悉程度。生成一个真实场景下的字体,文章开始图片相似的风格,是我的目标,以此为例:经过一些尝试,我选了真人效果卓绝的大模型lofi.v2,(还有一些其他比较真实的模型都可以备选,只是会有一些参数变化需要注意)不同的大模型,会对CN模型的控制力有不同的适应度,所以需要微调参数。
[title]AGI万字长文(上)| 2023回顾与反思[heading1]上篇:2023,风暴的前奏[heading2]<2>高估的短期:应用层没有独角兽我也尝试用OpenAI的API搭了个“写作助手”,但完全无法达到帮助写出现在这文章的能力。直接的感受差不多是在“指挥一群脱缰的野马”:控制困难、不能精细调整、没有记性、不讲逻辑是最痛的。当然,我自己花的时间也有限,也没有好好研究写Prompt/提示词的技巧。这个过程也我开始反思:现在的大模型究竟擅长的是什么?Hallucination = Imagination |幻觉=想象力如果从2023年跑出的产品和实际使用体验上来评价:大模型最成熟的能力并不是逻辑,而是想象力和取悦人的能力。这大概是合乎逻辑的。首先,我们看到的“幻觉问题”本身就是想象力的表现;而且在训练过程中,模型的学习方式一直都是“穷举归纳式的”,我们暂时还不知道如何“教会”模型“逻辑的方法”,而只能期待模型自己涌现出“逻辑”的能力。第二,因为模型训练时的优化目标包含了“让人继续聊下去”,所以取悦人,而非事实和逻辑,才是大模型更擅长的。这个特点是现在选择产品赛道时所需要仔细考虑的事情:娱乐向、创意向、2C的产品会早于逻辑向、2B产品成熟。Image:"AI Imagination",with Dall-E
写这篇文章的初衷,源于近期涌起的唱衰AI大模型的风潮。不少人在对大模型的机制及当下的商业形态进行了初步了解后,便断言大模型是一场“骗局”,是资本操控的闹剧。同时,近来不管是投资领域还是各大厂,似乎都开始谨慎衡量做大模型这件事的投资回报率(ROI)。难道大模型当真不像去年众人所认定的那样,是一场所谓的“革命”吗?唱衰大模型的人,大多持有这样的观点:他们觉得大模型仅能实现像chatbox、文生图、图生图、生视频、生音频之类的功能,难以找到可商用的场景,更别说其中部分功能还可能存在幻觉问题。同时,大模型的算力也是有成本的,而且价格不低。所以问题就出现了,即我们做出了一个个看似出色的ai产品,用户日活量或许也很高,但高日活带来的是高机器算力费用,而这笔费用又无法从活跃用户身上获取,所以这个商业模式就难以形成闭环了。所以这种理解倒不能说是错误的,但这是建立在两个前提之上的。第一,大模型确实后续也仅能用在聊天以及生成图片、文字、视频了;第二,算力的费用会持续居高不下。但在我看来,这两点都是不成立的。首先关于第二点的算力的问题,已经有许多解决方案了,不论是模型蒸馏,还是苹果的端云方案等等,我认为今年内算力成本问题将不再是难题。那么第一点,其实也是今日的重点。而要知晓一个新事物究竟能够带来什么样的改变,我认为首先是先需要明晰其运作原理究竟是怎样的。实际上,我也看过市面上很多有关大模型的科普文章,坦白讲,对于非技术人员而言,理解起来颇具难度。所以,我期望这篇文章能通过最为直白、最为简单的描述,帮助各位产品同学,理解何为大模型,大模型是如何运作的,大模型究竟带来了什么,以及我们究竟该去怎么看待这次大模型的浪潮。