Llamafile v0.8.14:全新 UI、性能提升,更多惊喜

我们刚刚发布了 Llamafile 0.8.14,这是我们广受欢迎的开源 AI 工具的最新版本。作为 Mozilla Builders 项目,Llamafile 将模型权重转换为快速、便捷的可执行文件,可在大多数计算机上运行,使任何人都可以轻松利用他们现有的硬件,从开放式 LLM 中获得最大收益。

全新的聊天界面

此新版本的主要功能是 我们全新的彩色命令行聊天界面。启动 Llamafile 后,我们现在会自动为您打开此全新聊天 UI,直接在终端中。这个新界面速度快、易于使用,与我们之前默认推出的基于 Web 的界面相比,整体体验更简单。 (我们的项目从上游 llama.cpp 项目继承了该界面,它仍然可用并支持一系列功能,包括图像上传。 只需将您的浏览器指向本地主机的 8080 端口即可)。

llamafile

其他最新改进

这个新的聊天 UI 只是冰山一角。在我们上次在博客上发布文章后的几个月里,首席开发者 Justine Tunney 一直在忙于发布一系列新版本,每个版本都在重要方面推动着项目向前发展。以下仅列举了一些亮点:

Llamafiler:我们正在构建自己的全新 OpenAI 兼容 API 服务器,称为 Llamafiler。这个新服务器将比它所取代的服务器更可靠、更稳定,最重要的是 更快。我们已经发布了嵌入端点,它的运行速度是 llama.cpp 中嵌入端点的 三倍。Justine 目前正在开发完成端点,届时 Llamafiler 将成为 Llamafile 的默认 API 服务器。

性能改进:在开源贡献者(如 k-quant 发明者 @Kawrakow 的帮助下,Llamafile 在过去几个月里经历了一系列显著的速度提升。特别是,预填充(提示评估)速度在各种架构上都有了显著提升:

  • 英特尔酷睿 i9 从 100 个令牌/秒提升到 400 个令牌/秒(提升 4 倍)。
  • AMD 线程撕裂者从 300 个令牌/秒提升到 2,400 个令牌/秒(提升 8 倍)。
  • 即使是性能适中的树莓派 5 也从 8 个令牌/秒提升到 80 个令牌/秒(提升 10 倍!)。

结合上面提到的新的高速嵌入服务器,Llamafile 已经成为运行使用检索增强生成 (RAG) 等方法的复杂本地 AI 应用程序的最快速方法之一。

支持强大的新模型:Llamafile 继续跟上开放式 LLM 的发展步伐,添加了对数十种新模型和架构的支持,规模从 4050 亿个参数到 10 亿个参数不等。以下仅列举了一些新的 Llamafile,它们 可在 Hugging Face 上下载

  • Llama 3.2 1B3B:为其小型规模提供了极其出色的性能和质量。 (这是我们自己的 Mike Heavers 所制作的 视频,展示了它的实际运行情况)。
  • Llama 3.1 405B:一个真正的“前沿模型”,在家 就可以运行,只要系统 RAM 足够。
  • OLMo 7B:来自我们来自 艾伦研究所的朋友,OLMo 是首批真正开放和透明的模型之一。
  • TriLM:一个新的“1.58 位”微型模型,针对 CPU 推理进行了优化,指向矩阵乘法不再主导未来的方向。

Whisperfile,单文件语音转文本:得益于社区成员 @cjpais 的贡献,我们创建了 Whisperfile,它对 whisper.cpp 的作用与 Llamafile 对 llama.cpp 的作用相同:即将其转换为可在几乎所有地方运行的多平台可执行文件。因此,Whisperfile 使 OpenAI 的 Whisper 技术可以轻松地将语音高效地转换为文本,无论您使用的是哪种硬件。

加入我们

我们的目标是使 Llamafile 成为构建复杂的本地运行 AI 应用程序的坚实基础。Justine 在全新 Llamafiler 服务器上的工作是实现这一目标的重要组成部分,但支持新模型并为尽可能多的用户优化推理性能也是同样重要的。我们很自豪也很感谢,项目在这些领域以及其他领域的重大突破,都是来自社区的贡献,例如 @Kawrakow @cjpais @mofosyne @Djip007 等等,他们经常留下自己的印记。

我们邀请您加入他们和我们。我们欢迎您在 我们的 GitHub 代码库中提交问题和 PR。我们也欢迎您成为 Mozilla AI Discord 服务器的成员,它有一个 专门为 Llamafile 设置的频道,在那里您可以直接与项目团队联系。期待在那边见到您!

 

关于 Stephen Hood

Stephen 在 Mozilla Builders 中领导开源 AI 项目 (包括 llamafile)。他之前管理了社会化书签先驱 del.icio.us;共同创立了 Storium、Blockboard 和 FairSpin;并在 Yahoo Search 和 BEA WebLogic 工作过。

更多 Stephen Hood 的文章…