前沿

NLP 可以做很多事情,可以非常的简单,但是效果却非常的好。

基本语料(chinese-basic)

成语

相关基础工具

拼音

繁简体

形近字

词语拓展

同义词、近义词、反义词、否定词、停顿词

敏感词

【汉字拆字】

【汉字词语缩写】

应用

拼写纠正:基于困惑集+编辑距离,结合中文的【形近字】【同音字】【谐音字】和【常见错别字词库】进行纠正。

基于词性标注等进行词性的推断是否正确。

基于成语的成语接龙小游戏。

基于形近字的形近字区分小游戏。

同义词+敏感词==》百度文库等资料

这里的替换原理基于熵增(一个汉字,根据同音,形似,同义词可以很容易的转换),但是反过来如果想还原,计算量会非常大(语义指纹部分会失效)。

替换的时候,集合词性,替换 adj/adv 等词语。

繁简体转换(拼音,甚至包括【语言转换】),可以考虑进行国内外网站自动抓取+转换。

特殊字符

内容

  • emoji

  • 单个特殊字符

  • 组成特殊字符

表情等等

ps: 这里不包含图片领域。图片应该也可以拓展为更大的一片市场领域。

  • 网名

应用

火星文生成(结合【同音字】【形近字】【特殊字符】)语料库保证可以自定义+拓展

网名的自动生成,可结合【chinese-name】

对联(chinese-couplet)

中文对联

经过 70w 的对联训练,可以进行自动对对子的程序。

字谜

一个谜面,一个答案

歇后语

一个上一句,一个下一句。

谚语

这个应该放在哪里???

诗词(chinese-poetry)

内容

唐诗

宋诗

宋词

元曲

辞赋

五代词

古诗

诗经

楚辞

应用

基本诗词的检索,归类。

飞花令(包含特定字的古诗)

根据古诗词起名字。这里的起名字可以结合【音形义】,也可以结合【三才五格】【生辰八字】等等。

自动诗词生成。(seq2seq)

chinese-name

基本特性

人名性别推断

随机生成人名+网名+公司名(值得拓展)

结合古诗词生成文艺气息

结合历史生成历史气息

结合科学===》科研气息

结合 chinese-fate 推到信命的人喜欢的名字。

应用

名称生成

古代人物(历史信息+生平事迹抓取)

经典(chinese-classic)

《孟学》

《四书五经》

《四大名著》

《幽梦影》

《三字经》

《道德经》

主要收集中国古代经典文学

古代故事(chinese-story)

寓言故事

童话故事

神话传说

近代

近代诗

经典的文章+小说

武侠小说(非现代)

笑话

冷笑话

段子

笑话

句子

内容

名人名言

名著佳句

各种风格的句子(唯美、忧伤、励志、鸡汤)

核心技术

爬虫+情感分类+文本分类

应用

  • 彩虹屁

  • 祖安语录

  • 狗屁不通生成器

以及结合 seq2seq 生成文章等等。

自动对话机器人。

现代

小说

作文(中小学生作文)

多媒体拓展

TTS 文本转语音(反过来)

图片转文字(反过来)

文字+图片==》视频(反过来)

自动字母+自动翻译+自动分析(如黄赌毒)

NLP 核心技术

分词

sentence-segment 断句

segment 分词

keyword 关键字

auto-summary 自动摘要

标注

词性标注

实体标注

句法分析树+消除歧义

相似度

similar-text 文本相似度计算

去重:语义指纹(sim hash)

分类

情感识别

自动聚类

文本分类(SVM KNN 贝叶斯)

输入的兼容性

多语言转换(babel)

繁简体

拼音

形近字

同义词(概念搜索)+相关词

前端技术学习

JS6/npm/web-pack/nodejs

VUE MVVC 思想学习

React 一个框架适应多个

Electron 一个框架适应多个

拓展应用

图床

小说抓取

电影(动漫)抓取

图片/字体/word/ppt/海报/小报/网站模板 等资源网站。收费

blog/paper 等技术型网站(可以利用免费公开==》私有收费)

旅游网站:信息抓取+天气

什么值得?:电影+书籍+游戏 等娱乐推荐 && 对比 && 测评

车子:汽车之家===》全部信息获取

房子:各大平台的信息聚合

工作:各大平台的信息聚合