-
本地可以运行的模型-03-多模态
多模态
没问题,那我们就继续。图像理解和语音对话是本地AI应用里很实用也很有趣的部分,它们能将你电脑的“大脑”拓展出“眼睛”和“耳朵”。
对于图像理解任务,我们直接利用你电脑上的Gemma 3 12B模型就能实现,无需额外下载。你只需要在代码中将它的功能稍作切换,并传入图片路径即可,它就能“看懂”图片并回答你的问题。
📸 图像理解能力
Gemma 3 12B 本身是一个多模态模型,理...
2026-04-10 13:01:55 |
AI
-
本地可以运行的模型-gamma
一些能力
Google 的 Gemma 系列,特别是最新的 Gemma 3,可能是你正在寻找的本地 AI 服务构建的核心模型。它延续了 Google 开源、高性能的传统,最大的亮点是将强大的多模态能力(理解图像和文本)引入了轻量级模型,让本地部署的门槛大大降低。
我把 Gemma 3 与其他相关的 Gemma 模型一起,整理进之前的分档清单里,方便你全面比较:
🧩 Gemma 系列模型...
2026-04-10 13:01:55 |
AI
-
本地可以运行的模型
一些能力
希望在自己的个人电脑,用 python 启动一些小的 ai 服务,测试验证。
期望有下面的 ai 能力列表,每一个推荐对应的开源模型+理由:
## AI 能力
- [] ocr
- [] tts stt 文本、语音
- [] 图片理解
- [] 图片生成
- [] 对文章、视频的总结能力
- [] 评论区 AT ai 的能力
- [] ai 对话
- [] 向量化分词
- ...
2026-04-10 13:01:55 |
AI
-
VoxCPM2:基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆
VoxCPM2
基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆
VoxCPM 是一个无离散音频分词器(Tokenizer-Free)的语音合成系统,通过端到端的扩散自回归架构直接生成连续语音表征,绕过对音频的离散编码步骤,实现高度自然且富有表现力的语音合成。
VoxCPM2 是最新的版本 — 基于 MiniCPM-4 基座构建,总计 20亿 参数,在超过 200万小时 的多...
2026-04-09 13:01:55 |
AI
-
SimpleMem 高效的 LLM 智能体终身记忆系统 — Text & Multimodal
Memos
开源、自托管的笔记工具,专为快速记录而生。原生支持 Markdown,轻量级,完全由你掌控。
💎 特别赞助
Warp —— 为速度和协作而生的 AI 驱动终端
TestMu AI - 全球首个全栈 Agentic AI 质量工程平台
SSD Nodes - 为自托管用户提供经济实惠的 VPS 托管服务
功...
2026-04-09 13:01:55 |
AI
-
SimpleMem 高效的 LLM 智能体终身记忆系统 — Text & Multimodal
## 高效的 LLM 智能体终身记忆系统 — Text & Multimodal
通过语义无损压缩实现长期记忆的存储、压缩和检索。支持 Claude、Cursor、LM Studio 等多种平台。
兼容任何支持 MCP 或 Python 集成的 AI 平台
Claude Desktop
...
2026-04-09 13:01:55 |
AI
-
OpenDataLoader PDF 面向AI就绪数据的PDF解析器。自动化PDF无障碍。开源。
OpenDataLoader PDF
面向AI就绪数据的PDF解析器。自动化PDF无障碍。开源。
🔍 面向AI数据提取的PDF解析器 — 从任意PDF中提取Markdown、JSON(含边界框)和HTML。基准测试第一(整体0.907)。确定性本地模式 + AI混合模式用于复杂页面。
准确度有多高? — 基准测试第一:整体0.907,表格准确率0.928(涵盖200个真实世界PD...
2026-04-09 13:01:55 |
AI
-
memU 面向 AI 智能体的全天候主动记忆系统
memU
面向 AI 智能体的全天候主动记忆系统
**English
中文
日本語
한국어
Español
Français**
</div>
memU 是一个专为 24/7 主动智能体打造的记忆框架。
它专为长时间运行设计,能够大幅降低保持智能...
2026-04-09 13:01:55 |
AI