Docker Github

如何在个人电脑上部署私有化ChatGPT：支持语音输入、图片识别与文生图

2025年12月12日 2025年12月12日

这个教程提供了如何在本地电脑上部署一个私有化的ChatGPT系统，支持聊天、图片识别、文生图、语音输入、文本朗读等功能。步骤如下：

1. 部署大模型

使用 ollama 来部署多种开源大模型。它支持 CPU 运行，不需要 GPU，安装非常简单。你可以选择各种模型，比如 Llama2 和 Gemma，官网支持的模型可以参考 ollama官网。

2. 部署聊天界面

使用 open webui 来搭建界面。这个项目不仅是一个聊天界面，还支持多个功能，如大模型的客户端。
使用 Docker 部署：docker run -d -p 3000:8080 –add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data –name open-webui –restart always ghcr.io/open-webui/open-webui:main部署完后，打开浏览器输入 http://localhost:3000，就能选择模型开始聊天。

3. 图片识别

使用 LLaVA 模型进行图片识别。在聊天时，选择 LLaVA 模型并发送图片，系统会自动识别图片内容。

4. 语音输入

部署 Whisper 语音识别系统。可以用麦克风输入语音进行聊天，效果接近收费系统。
配置 Whisper 后，将 STT 引擎设置为 whisper (Local)，然后在聊天输入框点击麦克风图标即可。

5. 文生图

使用 Stable Diffusion（需要 GPU）来生成图像。在 open-webui 中集成 Stable Diffusion，生成图片时会先选择模型并输入提示词（prompt），然后点击“生成图片”按钮。
配置时，需要确保 stable diffusion 启用了 API 接口，可以通过修改 webui.bat 文件来启动：set COMMANDLINE_ARGS=–api

6. 使用 OpenAI 接口

如果本地模型运行速度较慢，可以使用 OpenAI 的免费 API。你可以通过一些开源项目获取免费的 API Key，然后在配置中选择 OpenAI 模型。

7. 文本朗读

使用 Windows 系统的 HTML5 Speech Synthesis API 来实现离线的文本朗读功能。设置完成后，聊天时系统会自动朗读文本内容。

8. 项目地址

ollama: https://github.com/ollama/ollama
open-webui: https://github.com/open-webui/open-webui
Stable Diffusion: https://github.com/AUTOMATIC1111/stable-diffusion-webui
Whisper: https://github.com/openai/whisper
GPT_API_free: https://github.com/chatanywhere/GPT_API_free

通过这几个步骤，你可以在没有 GPU 的电脑上部署一个功能丰富的私有化 ChatGPT，并且支持语音输入、图片识别、文生图等高级功能。

发表回复取消回复

Title - Artist

0:00