这个教程提供了如何在本地电脑上部署一个私有化的ChatGPT系统,支持聊天、图片识别、文生图、语音输入、文本朗读等功能。步骤如下:
1. 部署大模型
- 使用 ollama 来部署多种开源大模型。它支持 CPU 运行,不需要 GPU,安装非常简单。你可以选择各种模型,比如 Llama2 和 Gemma,官网支持的模型可以参考 ollama官网。
2. 部署聊天界面
- 使用 open webui 来搭建界面。这个项目不仅是一个聊天界面,还支持多个功能,如大模型的客户端。
- 使用 Docker 部署:docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main部署完后,打开浏览器输入
http://localhost:3000,就能选择模型开始聊天。
3. 图片识别
- 使用 LLaVA 模型进行图片识别。在聊天时,选择 LLaVA 模型并发送图片,系统会自动识别图片内容。
4. 语音输入
- 部署 Whisper 语音识别系统。可以用麦克风输入语音进行聊天,效果接近收费系统。
- 配置 Whisper 后,将 STT 引擎设置为
whisper (Local),然后在聊天输入框点击麦克风图标即可。
5. 文生图
- 使用 Stable Diffusion(需要 GPU)来生成图像。在 open-webui 中集成 Stable Diffusion,生成图片时会先选择模型并输入提示词(prompt),然后点击“生成图片”按钮。
- 配置时,需要确保 stable diffusion 启用了 API 接口,可以通过修改
webui.bat文件来启动:set COMMANDLINE_ARGS=--api
6. 使用 OpenAI 接口
- 如果本地模型运行速度较慢,可以使用 OpenAI 的免费 API。你可以通过一些开源项目获取免费的 API Key,然后在配置中选择 OpenAI 模型。
7. 文本朗读
- 使用 Windows 系统的 HTML5 Speech Synthesis API 来实现离线的文本朗读功能。设置完成后,聊天时系统会自动朗读文本内容。
8. 项目地址
- ollama: https://github.com/ollama/ollama
- open-webui: https://github.com/open-webui/open-webui
- Stable Diffusion: https://github.com/AUTOMATIC1111/stable-diffusion-webui
- Whisper: https://github.com/openai/whisper
- GPT_API_free: https://github.com/chatanywhere/GPT_API_free
通过这几个步骤,你可以在没有 GPU 的电脑上部署一个功能丰富的私有化 ChatGPT,并且支持语音输入、图片识别、文生图等高级功能。