一些能力

希望在自己的个人电脑,用 python 启动一些小的 ai 服务,测试验证。

期望有下面的 ai 能力列表,每一个推荐对应的开源模型+理由:

## AI 能力

- [] ocr
- [] tts stt 文本、语音
- [] 图片理解
- [] 图片生成
- [] 对文章、视频的总结能力
- [] 评论区 AT ai 的能力
- [] ai 对话
- [] 向量化分词
- [] 翻译

默认推荐

没问题,这是按你要求整理的模型大小清单:

AI 能力 推荐模型 模型大小 (约)
OCR PaddleOCR-VL-0.9B 约 1.7 GB
TTS (文本转语音) NeuTTS Air 300 MB (量化后)
STT (语音转文本) Whisper.cpp (base) 142 MB (模型文件)
图片理解 TBAC-UniImage-3B 约 5.7 GB
图片生成 Z-Image-Turbo 约 6 GB (FP16)
文本总结/对话 GPT-OSS-20B 约 12 GB (量化版)
向量化分词 EmbeddingGemma < 200 MB (量化后)
翻译 Hunyuan-MT-7B 约 16 GB

📊 模型大小估算说明

  • 模型大小是根据参数量和数据精度(通常为FP16)估算的。例如,一个7B参数的FP16模型,其大小大约是 7B * 2字节 = 14 GB,与你表格中的模型大小相符。
  • 部分模型提供量化版本(如GGUF格式),能以轻微精度损失为代价,大幅减少存储和运行所需的内存。
  • 运行时的实际内存占用通常会比模型文件本身大一些。

有更小的吗?我希望模型可以在 100mb 之下,另外评估太小的话,模型的效果可以使用吗

没问题,100MB 对于很多 AI 模型来说确实是个严格的限制,但好消息是,随着模型轻量化技术的发展,这个尺寸下依然有很多“小而美”的模型可用。

我为你重新整理了一份推荐清单,这次所有模型的体积都控制在了 100MB 以内,并附带了它们在不同任务上的表现评估。

🧩 100MB 以内的“轻量级”开源AI模型推荐

AI 能力 推荐开源模型 模型大小 (约) 效果评估与说明
OCR PaddleOCR-slim 5 MB 以内 可用性高。专为轻量化设计的OCR模型,体积极小但识别精度尚可,非常适合你的测试场景。
STT (语音转文本) Whisper.cpp (tiny) 39 MB - 75 MB 效果较好。这是Whisper系列的最小版本,识别准确率(Accuracy: Good)能满足基本需求。
TTS (文本转语音) Pocket TTS 约 100 MB 效果出色。在100M参数规模下实现了高质量语音,可在普通笔记本CPU上实时运行,音质自然流畅。
图片理解 UForm (tiny) 约 100 MB 效果一般。体积限制下,它更适合基础的图像描述(Captioning)和视觉问答(VQA),复杂场景理解能力有限。
图片生成 Perfusion 100 KB (0.1 MB) 效果尚可。这是一个概念上极小的模型,能够生成“可圈可点”的图片,主要用于快速概念验证。
AI对话/总结 Qwen3-0.6B 约 300 MB (略超100MB) 性能优秀但略超限。0.6B参数的小模型,功能全面,支持多语言。作为参考,可考虑更小的 Qwen1.5-0.5B-Chat (约 200 MB),它在纯CPU环境下也能稳定运行。
向量化分词 dmeta-embedding-zh 约 100 MB 效果较好。这是一个专为中文优化的轻量级向量模型,在通用检索和RAG场景表现优秀。
翻译 (暂未发现合适模型) - 暂无完全符合要求的模型。如腾讯混元 HY-MT1.5-1.8B 虽轻量,但内存占用仍达1GB,无法满足100MB限制。

💡 扩展:更多100MB以内的超轻量模型

除了以上推荐,还有一些模型也值得关注,可以作为备选:

  • Liquid Nanos 系列:参数规模在3.5亿到26亿之间,足够小巧,可直接在笔记本等设备本地运行。
  • Gemma 3 270M:谷歌发布的超小型模型,参数规模约2.7亿,可在智能手机上离线运行。
  • Embedding Gemma:仅3.08亿参数的多语言向量模型,体积小巧。
  • Small-Stable-Diffusion-V0:Stable Diffusion的轻量化版本,针对CPU优化,无需昂贵GPU即可生成高质量图像。

💎 最终建议

在你的16GB内存电脑上,运行这些模型基本无压力。

但需要注意,由于体积限制,它们在处理复杂长文本、高分辨率图片或多轮对话等复杂任务时效果可能有限。

如果测试中发现这些模型的能力无法满足要求,可以考虑:

  • 寻找量化版本(GGUF等):这是最有效的折衷方案,能在不显著牺牲效果的前提下,大大减少模型体积。
  • 使用更大的量化模型:适当放宽体积限制(如300-500MB),可以换来大幅的性能提升。

希望这份新清单能帮到你,如果在测试时遇到什么问题,随时可以再来问我~

更多档位

为方便你在不同量级间权衡,我重新整理了这份对比清单。每个量级的模型都在追求“体积”与“能力”的最佳平衡,你可以根据自己的硬件资源和效果要求来选择。

整体来看,模型的能力与体积成正相关:在100MB以下,模型主打“能用”,适合处理单一、基础的任务;到了5GB这个级别,模型的能力则开始逼近云端大模型,足以胜任多数复杂的本地任务。

📊 全量级AI模型推荐清单

AI 能力 模型名称 模型大小 效果评估 特点与适用场景
📝 OCR PP-OCRv5 < 100 MB 效果较好
首个支持5种文字类型的超轻量级(<100M)开源模型,支持复杂手写体。
教育批改、病历/合同数字化等,兼顾体积与性能。
📝 OCR GLM-OCR (0.9B) ~ 1.7 GB (0.9B) 效果出色
专为复杂文档设计,融合0.4B视觉编码器与0.5B语言解码器。
复杂的文档理解(如表格、公式),追求高性能本地文档解析。
🗣️ STT Whisper (tiny) 39 - 75 MB 效果基础
支持多语言,适合实时性要求高的场景,中文准确率约85%-88%。
实时转写、移动端等资源紧张但对响应速度有要求的场景。
🗣️ STT Whisper (small) 约 488 MB 效果较好
平衡性能与资源,中文准确率可达92%-94%。
需要较高识别精度,且硬件条件尚可的场景。
🗣️ TTS Kokoro-82M < 500 MB 效果较好
仅82M参数,中文语音自然,支持8种音色,可在CPU上高效推理。
轻量级中文语音应用,资源受限但要求中文语音自然的设备。
🗣️ TTS Pocket TTS (100M) ~ 300 MB (100M) 效果较好
100M参数,可在CPU上超实时运行,支持高质量语音克隆(需5秒音频)。
边缘设备、笔记本,特别是需要快速响应和语音克隆的场景。
🖼️ 图片理解 SmolVLM-256M < 1 GB (256M) 效果较好
256M参数,支持图像描述和视觉问答(VQA),是当时最小的多模态模型之一。
文档理解、图像描述、视觉问答,面向资源有限的PC或移动设备。
🖼️ 图片理解 PaliGemma < 5 GB (3B) 效果出色
结合SigLIP视觉模型与Gemma语言模型,支持复杂视觉推理。
需要高精度图像描述、视觉问答或复杂视觉推理的场景。
🖼️ 图片理解 MiniCPM-V 2.6 < 5 GB (8B) 效果优秀
端侧多模态能力对标GPT-4V,支持单图、多图、视频理解。
对标商业模型的高端本地部署,需要强大视觉理解能力的综合应用。
🎨 图片生成 Small-Stable-Diffusion-v0 ~ 700 MB 效果尚可
针对CPU优化,无需高端GPU即可生成图像,速度约5秒/张。
轻量级图像生成,对推理速度要求高,硬件资源有限的场景。
🎨 图片生成 DreamLite (0.39B) ~ 780 MB (0.39B) 效果较好
390M参数,4步推理即可在1秒内生成1024x1024图像。
需要快速、高质量图像生成和编辑的本地应用。
🎨 图片生成 Z-Image-Turbo (6B) 约 12 GB (6B) 效果优秀
阿里通义出品,定位为“轻量且高性能”。
性能要求极高的本地图像生成,接近商业模型效果。
💬 AI对话/总结 ChatLM-mini-Chinese (0.2B) ~ 400 MB (0.2B) 效果基础
210M参数,专为中文对话设计,极低资源消耗。
中文对话应用,硬件资源非常有限(如树莓派)的场景。
💬 AI对话/总结 Qwen-0.5B-Instruct ~ 1 GB (0.5B) 效果较好
0.5B参数,超轻量,可在CPU上实现秒级响应。
通用轻量级对话、文本摘要,适合边缘/低配置设备。
💬 AI对话/总结 GPT-OSS-20B (Q4) ~ 12 GB (20B) 效果优秀
量化后体积可控,性能接近GPT-4级别。
追求高质量本地对话/总结,且硬件(显存/内存)充足的场景。
🔢 向量化 paraphrase-MiniLM-L6-v2 < 100 MB 效果较好
约100MB,6层Transformer,专为英文设计,推理速度快。
英文语义搜索、RAG,资源紧张且对性能有要求的应用。
🔢 向量化 EmbeddingGemma (0.3B) < 200 MB (0.3B) 效果出色
300M参数,多语言支持,性能直追0.6B的同类模型。
多语言RAG、语义搜索、分类、聚类等。
🌍 翻译 Tencent-HY-MT1.5-1.8B ~ 3.6 GB (1.8B) 效果出色
支持33语种互译,效果超越多数商用API,可本地部署。
端侧离线翻译,需要高质量、低延迟翻译的各类应用。
🌍 翻译 Tencent-HY-MT1.5-7B ~ 14 GB (7B) 效果优秀
7B版本,在专业术语和多轮对话场景效果更佳。
对翻译质量有最高要求的专业领域。

🧭 不同量级的选择指南

< 100 MB | 极致轻量,为基本功能而生

  • 效果评估:模型的回答和表现通常比较简短,仅能处理最核心的任务。对于图片生成等复杂任务,几乎不可能独立完成。
  • 典型代表:Whisper (tiny) 适用于语音转文字,PP-OCRv5 适用于文字识别,paraphrase-MiniLM-L6-v2 适用于文本向量化。

< 500 MB | 体积与效果的甜蜜点

  • 效果评估:这个量级的模型在多数任务上已经能够达到“可用”甚至“好用”的标准。它们能在CPU上流畅运行,是本地AI应用最具性价比的选择。
  • 典型代表
    • Qwen-0.5B:在资源有限的设备上也能实现流畅的AI对话。
    • Kokoro-82M:以极小体积实现了高质量的中文语音合成。

< 1 GB | 轻量级中的性能尖兵

  • 效果评估:这个级别是大型模型的“轻量版”或“量化版”的天下,在性能上已经有了质的飞跃。模型能处理更长的上下文,理解更复杂的指令,生成结果也更为连贯和准确。
  • 典型代表
    • Tencent-HY-MT1.5-1.8B:量化后仅需约1GB内存,翻译效果却能超越多数商用API。
    • SmolVLM-256M:是当时最小的多模态模型之一,能轻松运行在1GB内存的设备上。

< 5 GB | 性能接近云端大模型

  • 效果评估:这是一个接近性能天花板的量级。模型参数量通常在3B-7B之间,在对话、翻译、图片生成等任务上,其能力已能与许多云端商业模型相媲美。
  • 典型代表
    • MiniCPM-V 2.6:作为端侧模型,其多模态理解能力可对标GPT-4V。
    • PaliGemma:提供了高精度的视觉语言能力。
    • Z-Image-Turbo:以6B的参数量,实现了轻量且高性能的图像生成。

🚀 部署小贴士

  • 使用量化技术:这是压缩模型体积最有效的方法之一。例如,一个20B的模型(如GPT-OSS-20B)在4-bit量化后,体积可以控制在12GB左右。
  • 选择合适框架:推荐使用 Ollamallama.cpp 等工具,它们对量化模型有很好的支持,能帮你简化部署流程。

参考资料