llama.cpp编译和运行 API调用

🕗 发布于 2025-01-16 10:47 llama ai 人工智能 c++

llama.cpp编译和运行 API调用

llama.cpp介绍

llama.cpp是一个开源项目,官方地址：https://github.com/ggerganov/llama.cpp，使用纯 C/C++推理 Meta 的LLaMA模型,专门为在本地CPU上部署量化模型而设计。
它提供了一种简单而高效的方法，将训练好的量化模型转换为可在CPU上运行的低配推理版本,可加快推理速度并减少内存使用。

llama.cpp优势

高性能：llama.cpp针对CPU进行了优化，能够在保证精度的同时提供高效的推理性能。
低资源：由于采用了量化技术，llama.cpp可以显著减少模型所需的存储空间和计算资源,可运行在端侧设备上。
易集成：llama.cpp提供了简洁的API和接口，方便开发者将其集成到自己的项目中。
跨平台支持：llama.cpp可在多种操作系统和CPU架构上运行，具有很好的可移植性。

llama.cpp编译

安装编译环境
sudo apt install cmake g++ git

下载源代码
git clone https://github.com/ggerganov/llama.cpp


cd llama.cpp/
cd build/
编译
cmake ..
make

gcc --version
g++ --version
cmake .. -DCMAKE_CXX_FLAGS="-mavx -mfma"
    
cmake --build build --config Release -march=native -mtune=native
cmake -march=native -mtune=native --build build --config Release
cmake -DLLAMA_NATIVE=OFF
cmake -B build -DGGML_LLAMAFILE=OFF

编译完成后，会生成很多可执行文件，如图
在这里插入图片描述

llama.cpp运行

llama.cpp提供了与OpenAI API兼容的API接口，使用make生成的llama-server来启动API服务

本地启动 HTTP 服务器，使用端口：8080 指定Llama-3.1-8B-Instruct推理模型
.\llama-server.exe -m E:\ai_model\Imstudio-ai\lmstudio-community\Meta-Llama-3.1-8B-Instruct-GGUF\Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf --port 8080

调用API服务

curl --request POST     --url http://localhost:8080/completion
     --header "Content-Type: application/json"
     --data '{"prompt": "介绍一下llama.cpp"}'
     ```

原文地址：https://blog.csdn.net/yinjl123456/article/details/145166653

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：IDEA2023版中TODO的使用
下一篇：小程序如何引入腾讯位置服务

公专网一体5G工业路由器，智慧电网全链路加密监控管理
同时支持固件的远程升级和故障排查，进一步增强了电网的安全性和维护的便捷性。计讯物联公专网一体5G路由器TR323系列，具备小巧、易安装和强兼容性，实现公网广覆盖与专网高安全的双重优势，广泛应用于变电站
阅读更多2025-01-16
JavaScript前端高效性能优化策略：防抖和节流的详细介绍
防抖和节流是我们前端开发性能优化中经常用到的一个手段，目的就是为了减少/限制函数执行的频率，用来提升系统性能和用户体验。本篇文章将深入探讨防抖和节流这两种函数优化手段，防抖在函数频繁触发时只在最后一次
阅读更多2025-01-16
HTB：Paper[WriteUP]
我会有我的报复地球人，但在此之前，我必须帮助我的酷朋友德怀特回答他的同事问的恼人的问题，这样他就可以利用他宝贵的时间来.不和同事交流。由于上级的命令，每个加入这个博客的员工都被删除了，他们被迁移到我们
阅读更多2025-01-16
RTC(Real_Time Clock)
RTC（实时时钟，Real-Time Clock）是一种用于跟踪当前日期和时间的计时设备。RTC可以是独立的芯片，也可以是集成在微控制器或处理器中的一个模块。RTC是现代电子设备中不可或缺的一部分，为
阅读更多2025-01-16
Starrocks 存算分离 VS Trino 性能测试
Starrocks , 存算分离, Trino
阅读更多2025-01-16
rtthread学习笔记系列-- 31 RTC
alarm 闹钟功能是基于 RTC 设备实现的，根据用户设定的闹钟时间，当时间到时触发 alarm 中断，执行闹钟事件，在硬件上 RTC 提供的 Alarm 是有限的，RT-Thread 将 Alar
阅读更多2025-01-16
【时时三省】(C语言基础）经典笔试题3
山不在高，有仙则名。水不在深，有龙则灵。----CSDN 时时三省。
阅读更多2025-01-16
3.Java中根据用户需求将业务数据详情中的文件用压缩包的形式导出
一键导出所有文件
阅读更多2025-01-16
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN）
本文介绍了如何使用MATLAB和深度学习技术训练一个基于Faster R-CNN的车辆检测器。通过数据准备、模型搭建、训练、评估和应用等步骤，我们实现了一个能够在图像和视频中准确检测和标注车辆的系统。
阅读更多2025-01-16
Jmeter 简单使用、生成测试报告（一）
利用Jmetre压测接口，并生成测试报告jmeter -n -t E:\testJmeter\test.jmx -l E:\testJmeter\testNew.csv -e -o E:\jmeter
阅读更多2025-01-16

llama.cpp编译和运行 API调用

llama.cpp编译和运行 API调用

llama.cpp介绍

llama.cpp优势

llama.cpp编译

llama.cpp运行

相关文章