个人简介

Echo Blog


江湖无名 安心练剑
  • 本地可以运行的模型-03-多模态
    多模态 没问题,那我们就继续。图像理解和语音对话是本地AI应用里很实用也很有趣的部分,它们能将你电脑的“大脑”拓展出“眼睛”和“耳朵”。 对于图像理解任务,我们直接利用你电脑上的Gemma 3 12B模型就能实现,无需额外下载。你只需要在代码中将它的功能稍作切换,并传入图片路径即可,它就能“看懂”图片并回答你的问题。 📸 图像理解能力 Gemma 3 12B 本身是一个多模态模型,理...
    2026-04-10 13:01:55 | AI
  • 本地可以运行的模型-gamma
    一些能力 Google 的 Gemma 系列,特别是最新的 Gemma 3,可能是你正在寻找的本地 AI 服务构建的核心模型。它延续了 Google 开源、高性能的传统,最大的亮点是将强大的多模态能力(理解图像和文本)引入了轻量级模型,让本地部署的门槛大大降低。 我把 Gemma 3 与其他相关的 Gemma 模型一起,整理进之前的分档清单里,方便你全面比较: 🧩 Gemma 系列模型...
    2026-04-10 13:01:55 | AI
  • 本地可以运行的模型
    一些能力 希望在自己的个人电脑,用 python 启动一些小的 ai 服务,测试验证。 期望有下面的 ai 能力列表,每一个推荐对应的开源模型+理由: ## AI 能力 - [] ocr - [] tts stt 文本、语音 - [] 图片理解 - [] 图片生成 - [] 对文章、视频的总结能力 - [] 评论区 AT ai 的能力 - [] ai 对话 - [] 向量化分词 - ...
    2026-04-10 13:01:55 | AI
  • VoxCPM2:基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆
    VoxCPM2 基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆 VoxCPM 是一个无离散音频分词器(Tokenizer-Free)的语音合成系统,通过端到端的扩散自回归架构直接生成连续语音表征,绕过对音频的离散编码步骤,实现高度自然且富有表现力的语音合成。 VoxCPM2 是最新的版本 — 基于 MiniCPM-4 基座构建,总计 20亿 参数,在超过 200万小时 的多...
    2026-04-09 13:01:55 | AI
  • SimpleMem 高效的 LLM 智能体终身记忆系统 — Text & Multimodal
    Memos 开源、自托管的笔记工具,专为快速记录而生。原生支持 Markdown,轻量级,完全由你掌控。 💎 特别赞助 Warp —— 为速度和协作而生的 AI 驱动终端 TestMu AI - 全球首个全栈 Agentic AI 质量工程平台 SSD Nodes - 为自托管用户提供经济实惠的 VPS 托管服务 功...
    2026-04-09 13:01:55 | AI
  • SimpleMem 高效的 LLM 智能体终身记忆系统 — Text & Multimodal
    ## 高效的 LLM 智能体终身记忆系统 — Text & Multimodal 通过语义无损压缩实现长期记忆的存储、压缩和检索。支持 Claude、Cursor、LM Studio 等多种平台。 兼容任何支持 MCP 或 Python 集成的 AI 平台 Claude Desktop ...
    2026-04-09 13:01:55 | AI
  • OpenDataLoader PDF 面向AI就绪数据的PDF解析器。自动化PDF无障碍。开源。
    OpenDataLoader PDF 面向AI就绪数据的PDF解析器。自动化PDF无障碍。开源。 🔍 面向AI数据提取的PDF解析器 — 从任意PDF中提取Markdown、JSON(含边界框)和HTML。基准测试第一(整体0.907)。确定性本地模式 + AI混合模式用于复杂页面。 准确度有多高? — 基准测试第一:整体0.907,表格准确率0.928(涵盖200个真实世界PD...
    2026-04-09 13:01:55 | AI
  • memU 面向 AI 智能体的全天候主动记忆系统
    memU 面向 AI 智能体的全天候主动记忆系统 **English 中文 日本語 한국어 Español Français** </div> memU 是一个专为 24/7 主动智能体打造的记忆框架。 它专为长时间运行设计,能够大幅降低保持智能...
    2026-04-09 13:01:55 | AI