Ollama 和 llama.cpp 存在以下差异:
作者:吵爷Google刚刚发布了家用版的小模型Gemma,分别为2b(20亿参数)和7b(70亿参数)版本。相对千亿参数的大模型,这种小模型可能不适合解决特别复杂的任务,但是从趋势上看应该是模型本地化提升基础操作效率的模板。类似之前国内发布的ChatGLM-6B。现在的部署环境比一年前要友好多了,首先提一下Ollama,Ollama是一个开源的大型语言模型服务,可以非常方便地部署最新版本的GPT模型并通过接口使用,支持热加载模型文件,无需重新启动即可切换不同的模型。除了Gemma,像小型的llama也支持本地部署。环境准备首先进入ollama.com,下载程序并安装(支持windows,linux和macos)查找cmd进入命令提示符,输入ollama -v检查版本,安装完成后版本应该显示0.1.26cls清空屏幕,接下来直接输入ollama run gemma运行模型(默认是2b),首次需要下载,需要等待一段时间,如果想用7b,运行ollama run gemma:7b完成以后就可以直接对话了,2个模型都安装以后,可以重复上面的指令切换。2b的反应速度非常快,但是能够互动的话题有限。7b我也试了下,能跑是能跑(我是3050显卡),但是会有明显的卡顿,输出内容的质量相对会高不少,但无论2b还是7b,对非英文语种的反馈都不是很稳定。2b测试7b测试另外模型里一些常用的内部指令/set显示设置界面可调整的设置项/show显示模型信息/load <model>加载一个已有模型/bye退出
和第一个方案相比,Ollama的安装和使用,简直不要太简单,两步就搞定了步骤:1.打开Ollama https://ollama.com,下载应用并安装2.在Mac系统搜索terminal或终端,点击回车,弹出的那个简洁的框框就是。输入想要运行的大模型(例如:ollama run llama2),并回车。等待下载完成,即可输入内容,和llama2愉快的聊起来。当然,这个过程中,对于非技术同学最难的部分可能是「我不知道我的favorite terminal是啥」[heading3]超级简单模式:GPT4All[content]最简单的方案就是这个了,应该没有更简单的了,全程不用考虑「最喜欢的terminal是什么」GPT4All是一个用于运行大模型的浏览器,可安装、运行、管理本地大模型。步骤:1.打开GPT4All官网https://gpt4all.io,下载安装器,并按步骤完成安装。支持Windows、Mac、Linux2.打开安装好的GPT4All.app,选择或搜索任意一个大模型,即可下载并运行。在GPT4All官网有各个大模型的评测得分,选得分最高的下载,例如目前平均得分最高的是Nous-Hermes2。好了,现在可以愉快的在电脑上运行大模型了,从此「电脑」真正成为「电脑」了。是不是非常简单,欢迎分享你运行成功后的截图。如有疑问,欢迎加评论讨论。BGM:[New Boy](https://music.163.com/#/song?id=28996919)官网:waytoAGI.com知识库:[通往AGI之路](https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e)我们的目标是让每个人因AI而强大
由于笔者实用的macOS系统,因此采用GGML量化后的模型,官方开源出来的模型大都以Python为主,效率可想而知,因此笔者一般会采用社区内的其他实现,比较有名的项目有:ggerganov/llama.cpp:Port of Facebook's LLaMA model in C/C++([7])ggerganov/whisper.cpp:Port of OpenAI's Whisper model in C/C++([8])[heading2]LLama[content]首先是编译,为了利用Metal的GPU,可以用如下命令编译:之后需要去Llama-2-7B-Chat-GGML([9])中下载模型,3G到7G不等,读者可以按需尝试即可。得到输出此外,llama.cpp还提供了WebUI供用户使用,首先启动server:它默认监听8080端口,打开浏览器就可以对话了