个人简介

Echo Blog


江湖无名 安心练剑
  • NLP STT 语音转文字-01-入门概览
    chat 详细介绍一下语音转文字 语音转文字(Speech-to-Text, STT)是一种将人类的语音转换成书面文字的技术。 这项技术在多个领域有着广泛的应用,包括但不限于: 辅助工具:帮助听力障碍人士理解语音内容。 自动记录:在会议、讲座或访谈中自动生成文字记录。 命令和控制:在智能设备和汽车中通过语音命令进行操作。 搜索和导航:通过语音输入进行网络搜索或获取导...
    2020-01-20 02:09:32 | NLP
  • NLP 情感分析简介
    情感分析名词概述 是什么 情感分析是文本分类的一个分支,是对带有情感色彩(褒义贬义/正向负向)的主观性文本进行分析,以确定该文本的观点、喜好、情感倾向。 例如说,文本”这是书读来爱不释手”归为正向,”这本书很难看”归为负向。 当然也有层次更多的分类。 为什么 被研究的主观性文本包括顾客对某个产品的评论,大众对某个新闻热点事件的观点等。 通过这些文本,商家可以为消费者提供决策参考...
    2020-01-20 02:09:32 | NLP
  • NLP Number 数字工具类
    背景 当我们看到一串数字时: 123 456 7890 1989-10-01 12:35 121212.23 12'23'' 同样的都是数字,可能读法是不同的。 转换为中文读音和英文读音也是不同的。 为了方便,此处优先转换为中文。 基础预料 0 1 2 3 4 5 6 7 8 9 按照单个中文去读,转换为对应的中文。 标点符号另算。 金额转换 12000 ...
    2020-01-20 02:09:32 | NLP
  • NLP 开源形近字算法之相似字列表(番外篇)
    创作目的 国内对于文本的相似度计算,开源的工具是比较丰富的。 但是对于两个汉字之间的相似度计算,国内基本一片空白。国内的参考的资料少的可怜,国外相关文档也是如此。 本项目旨在抛砖引玉,实现一个基本的相似度计算工具,为汉字 NLP 贡献一点绵薄之力。 推荐阅读: NLP 中文形近字相似度计算思路 中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力 当代中国最贵的汉字是什么?...
    2020-01-20 02:09:32 | NLP
  • NLP 开源形近字算法补完计划(完结篇)
    前言 所有的故事都有开始,也终将结束。 本文将作为 NLP 汉字相似度的完结篇,为该系列画上一个句号。 起-NLP 中文形近字相似度计算思路 承-中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力 转-当代中国最贵的汉字是什么? 不足之处 之所以有本篇,是因为上一次的算法实现存在一些不足。 巴别塔 《圣经》中有关于巴别塔建造,最终人们因为语言问题而停工的故事​。 ...
    2020-01-20 02:09:32 | NLP
  • 当代中国最贵的汉字是什么?
    最贵的汉字 “你说,当代中国最贵的汉字是什么?”,有一天同事忽然问我。 “【诺】,因为一诺千金”,我脱口而出。 “不对。” “【字】,一字千金?” 同事摇头。 “爱?” “这个是无价的,不算。” “人才。不是说 21 世纪最贵的是人才吗?” “一个字,你这不算。你咋不说家书抵万金呢?” “算了,不猜了。”,我脑海里为数不多的几个字转了一圈,没有一个符合的。 我有些疑惑地...
    2020-01-20 02:09:32 | NLP
  • GPT2-Chinese 中文版 GPT2 训练代码,使用 BERT 分词器。
    GPT2-Chinese 中文的GPT2训练代码,使用BERT的Tokenizer或Sentencepiece的BPE model(感谢kangzhonghua的贡献,实现BPE模式需要略微修改train.py的代码)。 可以写诗,新闻,小说,或是训练通用语言模型。支持字为单位或是分词模式或是BPE模式(需要略微修改train.py的代码)。支持大语料训练。 项目状态 在本项目公布时...
    2020-01-20 02:09:32 | NLP
  • NLP 中文拼写检测实现思路
    目的 汉字不存在错字,但是存在别字。 查了一遍整个 github,只有一个比较靠谱的实现 correction,基于 C 语言实现。 相对成熟的产品 写作猫 核心思路 核心思路如下: 使用语言模型计算句子或序列的合理性 bigram, trigram, 4-gram 结合,并对每个字的分数求平均以平滑每个字的得分 根据Med...
    2020-01-20 02:09:32 | Data-Struct