前沿
NLP 可以做很多事情,可以非常的简单,但是效果却非常的好。
概率
SA 情感分析
文本分类
性别推断
垃圾邮件识别
基本语料(chinese-basic)
字
词
成语
相关基础工具
拼音
繁简体
形近字
词语拓展
同义词、近义词、反义词、否定词、停顿词
敏感词
【汉字拆字】
【汉字词语缩写】
应用
拼写纠正:基于困惑集+编辑距离,结合中文的【形近字】【同音字】【谐音字】和【常见错别字词库】进行纠正。
基于词性标注等进行词性的推断是否正确。
基于成语的成语接龙小游戏。
基于形近字的形近字区分小游戏。
同义词+敏感词==》百度文库等资料
这里的替换原理基于熵增(一个汉字,根据同音,形似,同义词可以很容易的转换),但是反过来如果想还原,计算量会非常大(语义指纹部分会失效)。
替换的时候,集合词性,替换 adj/adv 等词语。
繁简体转换(拼音,甚至包括【语言转换】),可以考虑进行国内外网站自动抓取+转换。
特殊字符
内容
-
emoji
-
单个特殊字符
-
组成特殊字符
表情等等
ps: 这里不包含图片领域。图片应该也可以拓展为更大的一片市场领域。
- 网名
应用
火星文生成(结合【同音字】【形近字】【特殊字符】)语料库保证可以自定义+拓展
网名的自动生成,可结合【chinese-name】
对联(chinese-couplet)
中文对联
经过 70w 的对联训练,可以进行自动对对子的程序。
字谜
一个谜面,一个答案
歇后语
一个上一句,一个下一句。
谚语
这个应该放在哪里???
诗词(chinese-poetry)
内容
唐诗
宋诗
宋词
元曲
辞赋
五代词
古诗
诗经
楚辞
应用
基本诗词的检索,归类。
飞花令(包含特定字的古诗)
根据古诗词起名字。这里的起名字可以结合【音形义】,也可以结合【三才五格】【生辰八字】等等。
自动诗词生成。(seq2seq)
chinese-name
基本特性
人名性别推断
随机生成人名+网名+公司名(值得拓展)
结合古诗词生成文艺气息
结合历史生成历史气息
结合科学===》科研气息
结合 chinese-fate 推到信命的人喜欢的名字。
应用
名称生成
古代人物(历史信息+生平事迹抓取)
经典(chinese-classic)
《孟学》
《四书五经》
《四大名著》
《幽梦影》
《三字经》
《道德经》
主要收集中国古代经典文学
古代故事(chinese-story)
寓言故事
童话故事
神话传说
近代
近代诗
经典的文章+小说
武侠小说(非现代)
笑话
冷笑话
段子
笑话
句子
内容
名人名言
名著佳句
各种风格的句子(唯美、忧伤、励志、鸡汤)
核心技术
爬虫+情感分类+文本分类
应用
-
彩虹屁
-
祖安语录
-
狗屁不通生成器
以及结合 seq2seq 生成文章等等。
自动对话机器人。
现代
小说
作文(中小学生作文)
多媒体拓展
TTS 文本转语音(反过来)
图片转文字(反过来)
文字+图片==》视频(反过来)
自动字母+自动翻译+自动分析(如黄赌毒)
NLP 核心技术
分词
sentence-segment 断句
segment 分词
keyword 关键字
auto-summary 自动摘要
similar-text 文本相似度计算
去重:语义指纹(sim hash)
分类
情感识别
自动聚类
文本分类(SVM KNN 贝叶斯)
性别推断
标注
词性标注
实体标注
句法分析树+消除歧义
输入的兼容性
多语言转换(babel)
繁简体
拼音
形近字
同义词(概念搜索)+相关词
前端技术学习
JS6/npm/web-pack/nodejs
VUE MVVC 思想学习
React 一个框架适应多个
Electron 一个框架适应多个
拓展应用
图床
小说抓取
电影(动漫)抓取
图片/字体/word/ppt/海报/小报/网站模板 等资源网站。收费
blog/paper 等技术型网站(可以利用免费公开==》私有收费)
旅游网站:信息抓取+天气
什么值得?:电影+书籍+游戏 等娱乐推荐 && 对比 && 测评
车子:汽车之家===》全部信息获取
房子:各大平台的信息聚合
工作:各大平台的信息聚合