fighting41love/funNLP
Fork: 14545 Star: 69511 (更新于 2024-12-03 06:54:09)
license: 暂无
Language: Python .
中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术系列报告、自然语言生成、NLU太难了系列、自动对联数据及机器人、用户名黑名单列表、罪名法务名词及分类模型、微信公众号语料、cs224n深度学习自然语言处理课程、中文手写汉字识别、中文自然语言处理 语料/数据集、变量命名神器、分词语料库+代码、任务型对话英文数据集、ASR 语音数据集 + 基于深度学习的中文语音识别系统、笑声检测器、Microsoft多语言数字/单位/如日期时间识别包、中华新华字典数据库及api(包括常用歇后语、成语、词语和汉字)、文档图谱自动生成、SpaCy 中文模型、Common Voice语音识别数据集新版、神经网络关系抽取、基于bert的命名实体识别、关键词(Keyphrase)抽取包pke、基于医疗领域知识图谱的问答系统、基于依存句法与语义角色标注的事件三元组抽取、依存句法分析4万句高质量标注数据、cnocr:用来做中文OCR的Python3包、中文人物关系知识图谱项目、中文nlp竞赛项目及代码汇总、中文字符数据、speech-aligner: 从“人声语音”及其“语言文本”产生音素级别时间对齐标注的工具、AmpliGraph: 知识图谱表示学习(Python)库:知识图谱概念链接预测、Scattertext 文本可视化(python)、语言/知识表示工具:BERT & ERNIE、中文对比英文自然语言处理NLP的区别综述、Synonyms中文近义词工具包、HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等)、word2word:(Python)方便易用的多语言词-词对集:62种语言/3,564个多语言对、语音识别语料生成工具:从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库、构建医疗实体识别的模型(包含词典和语料标注)、单文档非监督的关键词抽取、Kashgari中使用gpt-2语言模型、开源的金融投资数据提取工具、文本自动摘要库TextTeaser: 仅支持英文、人民日报语料处理工具集、一些关于自然语言的基本模型、基于14W歌曲知识库的问答尝试--功能包括歌词接龙and已知歌词找歌曲以及歌曲歌手歌词三角关系的问答、基于Siamese bilstm模型的相似句子判定模型并提供训练数据集和测试数据集、用Transformer编解码模型实现的根据Hacker News文章标题自动生成评论、用BERT进行序列标记和文本分类的模板代码、LitBank:NLP数据集——支持自然语言处理和计算人文学科任务的100部带标记英文小说语料、百度开源的基准信息抽取系统、虚假新闻数据集、Facebook: LAMA语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口、CommonsenseQA:面向常识的英文QA挑战、中文知识图谱资料、数据及工具、各大公司内部里大牛分享的技术文档 PDF 或者 PPT、自然语言生成SQL语句(英文)、中文NLP数据增强(EDA)工具、英文NLP数据增强工具 、基于医药知识图谱的智能问答系统、京东商品知识图谱、基于mongodb存储的军事领域知识图谱问答项目、基于远监督的中文关系抽取、语音情感分析、中文ULMFiT-情感分析-文本分类-语料及模型、一个拍照做题程序、世界各国大规模人名库、一个利用有趣中文语料库 qingyun 训练出来的中文聊天机器人、中文聊天机器人seqGAN、省市区镇行政区划数据带拼音标注、教育行业新闻语料库包含自动文摘功能、开放了对话机器人-知识图谱-语义理解-自然语言处理工具及数据、中文知识图谱:基于百度百科中文页面-抽取三元组信息-构建中文知识图谱、masr: 中文语音识别-提供预训练模型-高识别率、Python音频数据增广库、中文全词覆盖BERT及两份阅读理解数据、ConvLab:开源多域端到端对话系统平台、中文自然语言处理数据集、基于最新版本rasa搭建的对话系统、基于TensorFlow和BERT的管道式实体及关系抽取、一个小型的证券知识图谱/知识库、复盘所有NLP比赛的TOP方案、OpenCLaP:多领域开源中文预训练语言模型仓库、UER:基于不同语料+编码器+目标任务的中文预训练模型仓库、中文自然语言处理向量合集、基于金融-司法领域(兼有闲聊性质)的聊天机器人、g2pC:基于上下文的汉语读音自动标记模块、Zincbase 知识图谱构建工具包、诗歌质量评价/细粒度情感诗歌语料库、快速转化「中文数字」和「阿拉伯数字」、百度知道问答语料库、基于知识图谱的问答系统、jieba_fast 加速版的jieba、正则表达式教程、中文阅读理解数据集、基于BERT等最新语言模型的抽取式摘要提取、Python利用深度学习进行文本摘要的综合指南、知识图谱深度学习相关资料整理、维基大规模平行文本语料、StanfordNLP 0.2.0:纯Python版自然语言处理包、NeuralNLP-NeuralClassifier:腾讯开源深度学习文本分类工具、端到端的封闭域对话系统、中文命名实体识别:NeuroNER vs. BertNER、新闻事件线索抽取、2019年百度的三元组抽取比赛:“科学空间队”源码、基于依存句法的开放域文本知识三元组抽取和知识库构建、中文的GPT2训练代码、ML-NLP - 机器学习(Machine Learning)NLP面试中常考到的知识点和代码实现、nlp4han:中文自然语言处理工具集(断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查、XLM:Facebook的跨语言预训练语言模型、用基于BERT的微调和特征提取方法来进行知识图谱百度百科人物词条属性抽取、中文自然语言处理相关的开放任务-数据集-当前最佳结果、CoupletAI - 基于CNN+Bi-LSTM+Attention 的自动对对联系统、抽象知识图谱、MiningZhiDaoQACorpus - 580万百度知道问答数据挖掘项目、brat rapid annotation tool: 序列标注工具、大规模中文知识图谱数据:1.4亿实体、数据增强在机器翻译及其他nlp任务中的应用及效果、allennlp阅读理解:支持多种数据和模型、PDF表格数据提取工具 、 Graphbrain:AI开源软件库和科研工具,目的是促进自动意义提取和文本理解以及知识的探索和推断、简历自动筛选系统、基于命名实体识别的简历自动摘要、中文语言理解测评基准,包括代表性的数据集&基准模型&语料库&排行榜、树洞 OCR 文字识别 、从包含表格的扫描图片中识别表格和文字、语声迁移、Python口语自然语言处理工具集(英文)、 similarity:相似度计算工具包,java编写、海量中文预训练ALBERT模型 、Transformers 2.0 、基于大规模音频数据集Audioset的音频增强 、Poplar:网页版自然语言标注工具、图片文字去除,可用于漫画翻译 、186种语言的数字叫法库、Amazon发布基于知识的人-人开放领域对话数据集 、中文文本纠错模块代码、繁简体转换 、 Python实现的多种文本可读性评价指标、类似于人名/地名/组织机构名的命名体识别数据集 、东南大学《知识图谱》研究生课程(资料)、. 英文拼写检查库 、 wwsearch是企业微信后台自研的全文检索引擎、CHAMELEON:深度学习新闻推荐系统元架构 、 8篇论文梳理BERT相关模型进展与反思、DocSearch:免费文档搜索引擎、 LIDA:轻量交互式对话标注工具 、aili - the fastest in-memory index in the East 东半球最快并发索引 、知识图谱车音工作项目、自然语言生成资源大全 、中日韩分词库mecab的Python接口库、中文文本摘要/关键词提取、汉字字符特征提取器 (featurizer),提取汉字的特征(发音特征、字形特征)用做深度学习的特征、中文生成任务基准测评 、中文缩写数据集、中文任务基准测评 - 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜、PySS3:面向可解释AI的SS3文本分类器机器可视化工具 、中文NLP数据集列表、COPE - 格律诗编辑程序、doccano:基于网页的开源协同多语言文本标注工具 、PreNLP:自然语言预处理库、简单的简历解析器,用来从简历中提取关键信息、用于中文闲聊的GPT2模型:GPT2-chitchat、基于检索聊天机器人多轮响应选择相关资源列表(Leaderboards、Datasets、Papers)、(Colab)抽象文本摘要实现集锦(教程 、词语拼音数据、高效模糊搜索工具、NLP数据增广资源集、微软对话机器人框架 、 GitHub Typo Corpus:大规模GitHub多语言拼写错误/语法错误数据集、TextCluster:短文本聚类预处理模块 Short text cluster、面向语音识别的中文文本规范化、BLINK:最先进的实体链接库、BertPunc:基于BERT的最先进标点修复模型、Tokenizer:快速、可定制的文本词条化库、中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜、spaCy 医学文本挖掘与信息提取 、 NLP任务示例项目代码集、 python拼写检查库、chatbot-list - 行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍、语音质量评价指标(MOSNet, BSSEval, STOI, PESQ, SRMR)、 用138GB语料训练的法文RoBERTa预训练语言模型 、BERT-NER-Pytorch:三种不同模式的BERT中文NER实验、无道词典 - 有道词典的命令行版本,支持英汉互查和在线查询、2019年NLP亮点回顾、 Chinese medical dialogue data 中文医疗对话数据集 、最好的汉字数字(中文数字)-阿拉伯数字转换工具、 基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧、awesome-nlp-sentiment-analysis - 情感分析、情绪原因识别、评价对象和评价词抽取、LineFlow:面向所有深度学习框架的NLP数据高效加载器、中文医学NLP公开资源整理 、MedQuAD:(英文)医学问答数据集、将自然语言数字串解析转换为整数和浮点数、Transfer Learning in Natural Language Processing (NLP) 、面向语音识别的中文/英文发音辞典、Tokenizers:注重性能与多功能性的最先进分词器、CLUENER 细粒度命名实体识别 Fine Grained Named Entity Recognition、 基于BERT的中文命名实体识别、中文谣言数据库、NLP数据集/基准任务大列表、nlp相关的一些论文及代码, 包括主题模型、词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)计算等,涉及到各种与nlp相关的算法,基于keras和tensorflow 、Python文本挖掘/NLP实战示例、 Blackstone:面向非结构化法律文本的spaCy pipeline和NLP模型通过同义词替换实现文本“变脸” 、中文 预训练 ELECTREA 模型: 基于对抗学习 pretrain Chinese Model 、albert-chinese-ner - 用预训练语言模型ALBERT做中文NER 、基于GPT2的特定主题文本生成/文本增广、开源预训练语言模型合集、多语言句向量包、编码、标记和实现:一种可控高效的文本生成方法、 英文脏话大列表 、attnvis:GPT2、BERT等transformer语言模型注意力交互可视化、CoVoST:Facebook发布的多语种语音-文本翻译语料库,包括11种语言(法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文)的语音、文字转录及英文译文、Jiagu自然语言处理工具 - 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能、用unet实现对文档表格的自动检测,表格重建、NLP事件提取文献资源列表 、 金融领域自然语言处理研究资源大列表、CLUEDatasetSearch - 中英文NLP数据集:搜索所有中文NLP数据集,附常用英文NLP数据集 、medical_NER - 中文医学知识图谱命名实体识别 、(哈佛)讲因果推理的免费书、知识图谱相关学习资料/数据集/工具资源大列表、Forte:灵活强大的自然语言处理pipeline工具集 、Python字符串相似性算法库、PyLaia:面向手写文档分析的深度学习工具包、TextFooler:针对文本分类/推理的对抗文本生成模块、Haystack:灵活、强大的可扩展问答(QA)框架、中文关键短语抽取工具
The Most Powerful NLP-Weapon Arsenal
NLP民工的乐园: 几乎最全的中文NLP资源库
在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。
很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star:star:,谢谢!
长期不定时更新,欢迎watch和fork!:heart::heart::heart:
:fire::fire::fire::fire::fire::fire::fire::fire::fire::fire: |
---|
* 类ChatGPT的模型评测对比 * 类ChatGPT的资料 * 类ChatGPT的开源框架 * LLM的训练_推理_低资源_高效训练 * 提示工程 * 类ChatGPT的文档问答 * 类ChatGPT的行业应用 * 类ChatGPT的课程资料 * LLM的安全问题 * 多模态LLM * LLM的数据集 |
:eggplant: :cherries: :pear: :tangerine: | :sunflower: :strawberry: :melon: :tomato: :pineapple: |
---|---|
* 语料库 * 词库及词法工具 * 预训练语言模型 * 抽取 * 知识图谱 * 文本生成 * 文本摘要 * 智能问答 * 文本纠错 |
* 文档处理 * 表格处理 * 文本匹配 * 文本数据增强 * 文本检索 * 阅读理解 * 情感分析 * 常用正则表达式 * 语音处理 |
* 常用正则表达式 * 事件抽取 * 机器翻译 * 数字转换 * 指代消解 * 文本聚类 * 文本分类 * 知识推理 * 可解释NLP * 文本对抗攻击 |
* 文本可视化 * 文本标注工具 * 综合工具 * 有趣搞笑工具 * 课程报告面试等 * 比赛 * 金融NLP * 医疗NLP * 法律NLP * 文本生成图像 * 其他 |
类ChatGPT的模型评测对比
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
ChatALL:可以同时与多个AI聊天机器人(含清华、讯飞的产品) | 可以同时与多个AI聊天机器人(如ChatGPT、Bing Chat、Bard、Alpaca、Vincuna、Claude、ChatGLM、MOSS、iFlytek Spark、ERNIE等)进行对话的工具。它可以并行发送提示给不同的AI机器人,帮助用户找到最好的回答 | github-ChatALL |
Chatbot Arena | 实际场景用Elo rating对 LLM 进行基准测试 - 介绍了 Chatbot Arena,一种针对大型语言模型 (LLM) 的基准平台,采用匿名、随机的方式进行对抗评测,评测方式基于国际象棋等竞技游戏中广泛使用的 Elo rating system。发布了9个流行的开源 LLM 模型的 Elo rating 并推出排行榜。平台采用 FastChat 多模型服务系统,在多个语言下提供交互式界面,数据来源于用户投票。总结了 Chatbot Arena 的优点并计划提供更好的采样算法、排名和服务系统 | 截止2023年5月3日 |
类ChatGPT模型评测总结 | 大型语言模型(LLM)受到广泛关注,这些强大的模型能够理解复杂的信息,并对各种问题提供类人的回应。其中GPT-3和GPT-4表现最好,Flan-t5和Lit-LLaMA表现也不错。但要注意,模型商用可能需要付费和数据共享 | blog |
大型语言模型(LLMs)大盘点 | blog | |
大模型评测方面的最新研究 | 长文本建模一直是ChaGPT令人惊艳的能力之一,我们以【篇章翻译】为实验场景,对大模型的篇章建模能力进行全面、细粒度的测试。 | paper |
中文大模型评测工具&排行榜 | C-Eval是一个全面的中文评估套件,适用于基础模型。它包含13948个多项选择题,涵盖52个不同的学科和四个难度级别,具体如下所示。请访问我们的网站或查阅我们的论文获取更多详细信息。 | githubpaper |
OpenCompass 大模型评测 | OpenCompass 上海人工智能实验室开发的一款开源、高效、全面的评测大模型体系及开放平台,提供完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测。利用分布式技术,即使面对千亿参数模型也能在数小时内完成评测。基于多个不同维度的高认可度数据集开放多样化的评测方式,包括零样本评测、小样本评测和思维链评测,全方位量化模型各个维度能力。 | github website |
类ChatGPT的资料
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Open LLMs:可供商业使用的开放大型语言模型(LLM) | A list of open LLMs available for commercial use | github |
LLM Zoo: 大型语言模型的数据、模型和基准集市 | LLM Zoo: democratizing ChatGPT - a project that provides data, models, and evaluation benchmark for large language models | github |
大型语言模型(LLM)资料合集 | 相关论文列表,包括指导、推理、决策、持续改进和自我提升等方面的研究工作 | LLM资料合集 |
DecryptPrompt | 总结Prompt&LLM论文,开源数据&模型,AIGC应用 | github |
SmartGPT | 旨在为大型语言模型(尤其是GPT-3.5和GPT-4)提供完成复杂任务的能力,通过将它们分解成更小的问题,并使用互联网和其他外部来源收集信息。特点包括模块化设计,易于配置,以及对插件的高度支持。SmartGPT的运作基于"Autos"的概念,包括"Runner"和"Assistant"两种类型,都配有处理计划、推理和任务执行的LLM代理。此外,SmartGPT还具有内存管理系统,以及可以定义各种命令的插件系统 | github-SmartGPT |
OpenGPT | 用于创建基于指令的数据集并训练对话领域专家大型语言模型(LLMs)的框架。已经成功应用于训练健康护理对话模型NHS-LLM,利用来自英国国家卫生服务体系(NHS)网站的数据,生成了大量的问答对和独特对话 | github-OpenGPT |
PaLM 2技术报告 | Google最新发布PaLM 2,一种新的语言模型,具有更好的多语言和推理能力,同时比其前身PaLM更节省计算资源。PaLM 2综合了多项研究进展,包括计算最优的模型和数据规模、更多样化和多语言的数据集、以及更有效的模型架构和目标函数。PaLM 2在多种任务和能力上达到了最先进的性能,包括语言水平考试、分类和问答、推理、编程、翻译和自然语言生成等。PaLM 2还展示了强大的多语言能力,能够处理数百种语言,并在不同语言之间进行翻译和解释。PaLM 2还考虑了负责任的使用问题,包括推理时控制毒性、减少记忆化、评估潜在的伤害和偏见等 | PaLM 2 Technical Report |
DB-GPT | 于vicuna-13b和FastChat的开源实验项目,采用了langchain和llama-index技术进行上下文学习和问答。项目完全本地化部署,保证数据的隐私安全,能直接连接到私有数据库处理私有数据。其功能包括SQL生成、SQL诊断、数据库知识问答等 | github-DB-GPT |
Transformers相关文献资源大列表 | 包含了各种各样的Transformer模型,例如BERT、GPT、Transformer-XL等,这些模型已经在许多自然语言处理任务中得到了广泛应用。此外,该列表还提供了这些模型的相关论文和代码链接,为自然语言处理领域的研究人员和开发者提供了很好的参考资源 | github |
GPT-4终极指南 | 一份关于如何使用GPT3和GPT4的指南,其中包括100多个资源,可以帮助学习如何用它来提高生活效率。包括如何学习ChatGPT基础知识、如何学习ChatGPT高级知识、如何在语言学习中使用GPT-3、如何在教学中使用GPT-3、如何使用GPT-4等,还提供了如何升级到ChatGPT+计划以使用GPT-4以及如何免费使用GPT-4的方法等内容。同时,还提供了如何在业务、生产力、受益、金钱等方面使用ChatGPT的指南 | link |
基于LoRA的LLM参数高效微调 | link | |
复杂推理:大语言模型的北极星能力 | 在 GPT-4 发布博客中,作者写道:“在一次随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂程度达到足够的阈值时,差异就会显现出来。”这意味着复杂任务很可能是大型和小型语言模型的关键差异因素。在这篇文章中,我们将仔细分析讨论如何让大语言模型拥有强大的复杂推理能力。 | blog |
大型语言模型的涌现能力是否是海市蜃楼? | 大语言模型的涌现能力一直是被大家视作很神奇的现象,似乎是一种大力出奇迹,但这篇论文认为这可能只是一种错觉。 | paper |
大语言模型的概率总结 | 非常详尽的LLM科学解释和总结 | paper |
LLaMA 模型简史 | LLaMA是Meta发布的语言模型,采用Transformer架构,有多个版本,最大为65B参数。与GPT类似,可用于进一步微调,适用于多种任务。与GPT不同的是,LLaMA是开源的,可以在本地运行。现有的LLaMA模型包括:Alpaca、Vicuna、Koala、GPT4-x-Alpaca和WizardLM。每个模型都有不同的训练数据和性能表现 | blog |
大型语言模型的复杂推理 | 讨论了如何训练具有强大复杂推理能力的语言模型,并探讨了如何有效地提示模型以充分释放其潜力;针对语言模型和编程的训练相似性,提出了三阶段的训练:持续训练、监督微调和强化学习;介绍了评估大型语言模型推理能力的一套任务集合;讨论了如何进行提示工程,通过提供各种学习机会使模型获得更好的学习效果,最终实现智能化 | link |
大语言模型进化树 | paper | |
李宏毅:穷人如何低资源复刻自己的ChatGPT | blog | |
训练ChatGPT的必备资源:语料、模型和代码库完全指南 | 资源链接论文地址 | |
GitHub宝藏库,里面整理了GPT相关的各种开源项目 | github | |
ChatGPT中文指南 | gitlab | |
探讨了ChatGPT在自然语言处理中的应用、优势、限制以及未来发展方向 | 强调了在使用该技术时的伦理道德考量和提示工程技术。 | paper |
大型语言模型相关文献资源列表 | github | |
大型语言模型文献综述--中文版 | github | |
ChatGPT 相关资源大列表 | github | |
Pre-Training to Learn in Context | paper | |
Langchain架构图 | image | |
LLM开发人员都应该知道的数字 | github | |
大语言模型如何构建强大的复杂推理能力 | blog | |
LLMs九层妖塔 | 分享打怪(ChatGLM、Chinese-LLaMA-Alpaca、MiniGPT-4、FastChat、LLaMA、gpt4all等)实战与经验 | github |
类ChatGPT的开源框架
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
LLM-As-Chatbot | 这个项目把市面上有的LLM全部做成了Chatbot,直接可以在google colab运行,不需要自己搭建,非常适用于想体验LLM的朋友们。我刚试了,真的超简单。有些LLM需要的显存比较多,所以最好是要有colab pro订阅。 | github |
OpenBuddy | 一款强大的开源多语言聊天机器人模型,目标是全球用户,重点是对话AI和流畅的多语言支持,包括英文、中文等多种语言。基于Facebook的LLAMA模型,进行了微调,包括扩展词汇表、增加常用字符和增强的token embeddings。通过这些改进和多轮对话数据集,OpenBuddy提供了一个强大的模型,能回答问题并在各种语言之间进行翻译任务。OpenBuddy的使命是提供一个免费、开放且可离线使用的AI模型,该模型可以在用户的设备上运行,无论他们的语言或文化背景如何。目前,OpenBuddy-13B的演示版本可以在Discord服务器上找到。其关键功能包括多语言对话AI(包括中文、英文、日文、韩文、法文等)、增强的词汇表和对常见CJK字符的支持,以及两种模型版本:7B和13B | github-OpenBuddy |
Panda: 海外中文开源大语言模型 | 基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练,使用了接近15M条数据,并针对推理能力在中文benchmark上进行了评测 | github-PandaLM |
Dromedary:一个开源的自对齐语言模型,只需少量人工监督即可进行训练 | github-Dromedary | |
LaMini-LM 蒸馏的小型、高效的语言模型集合 | 从 ChatGPT 蒸馏的小型、高效的语言模型集合,在2.58 M 指令大规模数据集上进行训练 | github |
LLaMA-Adapter V2 | 上海人工智能实验室 LLaMA-Adapter V2,仅注入14M参数,1小时时间即可完成训练,对比较果确实很惊艳,且具有多模态功能(对图像进行解释和问答) | github |
HuggingChat | Hugging Face 推出第一个 ChatGPT 开源替代品:HuggingChat。基于 Open Assistant 大模型搭建,支持中文对话与编写代码,但暂不支持中文回复。应用已上线,无需代理,打开即可访问 | link |
Open-Chinese-LLaMA | 基于 LLaMA-7B 经过 中文数据集增量预训练 产生的 中文大语言模型基座 | github |
OpenLLaMA | LLaMA模型的开源复现,在RedPajama数据集上训练,使用了与LLaMA相同的预处理步骤和超参数,模型结构,上下文长度,训练步骤,学习率调度和优化器。OpenLLaMA的PyTorch和Jax权重可以在Huggingface Hub上获得。OpenLLaMA在各种任务中展现出与LLaMA和GPT-J相似的表现,部分任务表现优异 | github |
replit-code-v1-3b | BY-SA 4.0授权发布,这意味着允许商业使用 | link |
MOSS | MOSS是一个支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 | github |
RedPajama | 1.2 万亿tokens数据集 | link |
chinese_llama_alpaca_lora 抽取框架 | github | |
Scaling Transformer to 1M tokens and beyond with RMT | 该论文提出一种名为 RMT 的新技术,或许可将 Transform 的 Token 上限扩展至 100 万,甚至更多。 | github |
Open Assistant | 包含大量AI生成的、人工标注的语料库和包括基于LLaMA和基于Pythia的多种模型可选。发布的数据集包括超过161K较高质量的,多达35种语言的人工助手型交互对话语料库 | data model |
ChatGLM Efficient Tuning | 基于 PEFT 的高效 ChatGLM 微调 | github |
Dolly介绍 | news | |
Baize:一种对自聊天数据进行参数高效调优的开源聊天模型 | Baize是一个开源的聊天模型,可以进行多轮对话。它是通过使用ChatGPT自我对话生成高质量的多轮聊天语料库,并使用参数高效调整来增强LLaMA(一个开源的大型语言模型)而创建的。Baize模型在具有最小潜在风险的情况下表现出良好的多轮对话性能。它可以在单个GPU上运行,使更广泛的研究人员可以使用它。Baize模型和数据仅用于研究目的。 | 论文地址源码地址 |
GPTrillion--未找到开源代码 | 包含1.5万亿(1.5T)参数的大模型GPTrillion开源了,号称是目前世界上最大的开源LLM | google_doc |
Cerebras-GPT-13B(可商用) | hugging_face | |
Chinese-ChatLLaMA | 中文ChatLLaMA对话模型;预训练/指令微调数据集,基于 TencentPretrain 多模态预训练框架构建,支持简繁体中文、英文、日文等多语言 | github |
Lit-LLaMA | 基于Apache 2.0许可证完全开源的LLaMA独立实现,建立在nanoGPT之上,旨在解决原始LLaMA代码采用GPL许可证的限制,以实现更广泛的学术和商业应用 | github |
MosaicML | MPT-7B-StoryWriter,65K tokens,可以把《了不起的盖茨比》都一次性扔进去。 | huggingface |
Langchain | 大型语言模型(LLMs)正在成为一项具有变革性的技术,使开发者能够构建以前无法实现的应用程序。然而,仅仅使用这些独立的LLMs通常不足以创建一个真正强大的应用程序 - 真正的力量来自于能够将它们与其他计算或知识来源相结合。 | github |
Guidance | 引导能够比传统的提示或链接更有效地控制现代语言模型,并且更高效。引导程序允许您将生成、提示和逻辑控制交错到单一连续流中,与语言模型实际处理文本的方式相匹配。像"Chain of Thought"及其许多变体(例如ART、Auto-CoT等)这样的简单输出结构已被证明能改善语言模型的性能。更强大的语言模型(如GPT-4)的出现使得更丰富的结构成为可能,而引导则使得构建这种结构变得更加容易和经济。 | github |
WizardLM | 赋予大型预训练语言模型遵循复杂指令的能力,使用完整进化指令(约300k)训练的WizardLM-7B模型 | github |
LLM的训练_推理_低资源_高效训练
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
QLoRA--Guanaco | 一种高效的微调方法,可以在单个48GB的GPU上微调一个拥有65B参数的模型,同时保持完整的16位微调任务性能,并通过QLoRA将梯度反向传播通过一个冻结的、4位量化的预训练语言模型到低秩适配器(LoRA) | github |
Chinese-Guanaco | 一个中文低资源的量化训练/部署方案 | github |
DeepSpeed Chat: 一键式RLHF训练 | github | |
LLMTune: 在消费级GPU上微调大型65B+LLM | 可以在普通消费级GPU上进行4位微调,例如最大的65B LLAMA模型。LLMTune还实现了LoRA算法和GPTQ算法来压缩和量化LLM,并通过数据并行处理大型模型。此外,LLMTune提供了命令行界面和Python库的使用方式 | github |
基于ChatGLM-6B+LoRA在指令数据集上进行微调 | 基于deepspeed支持多卡微调,速度相比单卡提升8-9倍具体设置可见 微调3 基于DeepSpeed进行Lora微调 | github |
微软发布RLHF训练工具DeepSpeed Chat | github | |
LlamaChat:Mac上基于LLaMa的聊天机器人 | github | |
ChatGPT/GPT4开源“平替”们 | github | |
训练大型机器学习模型的实用建议和技巧 | 帮助您训练大型模型(>1B 参数)、避免不稳定性、保存开始失败的实验而不从 0 重新开始 | link |
Instruction Tuning with GPT-4 | paper | |
xturing | 一个Python软件包,用于高效、快速、简单地微调LLM模型,支持LLaMA、GPT-J、GPT-2等多种模型,可使用单GPU和多GPU训练,使用LoRA等高效微调技术可将硬件成本降低高达90%,并在短时间内完成模型训练 | github |
GPT4All | 一个允许在Macbook本地运行GPT的开源项目。基于LLaMa-7B大语言模型打造,包括数据、代码和demo都是开源的,对话风格偏向AI助理 | github |
用Alpaca-LoRA微调ChatGPT类模型 | link | |
LMFlow | 可扩展、方便有效的工具箱,用于微调大型机器学习模型 | github |
闻达:大型语言模型调用平台 | 目前支持chatGLM-6B、chatRWKV、chatYuan和chatGLM-6B模型下的chatPDF(自建知识库查找)' | github |
Micro Agent | 小型自主智能体开源项目,由LLM(OpenAI GPT-4)提供动力,可以为你编写软件,只需设置一个“目的”,让它自己工作 | github |
Llama-X | 开源的学术研究项目,通过社区共同努力,逐步将LLaMA的性能提高到SOTA LLM水平,节省重复工作,共同创造更多、更快的增量 | github |
Chinese-LLaMA-Alpaca | 中文LLaMA&Alpaca大语言模型+本地部署 (Chinese LLaMA & Alpaca LLMs) - 开源了经过中文文本数据预训练的中文LLaMA大模型;开源了进一步经过指令精调的中文Alpaca大模型;快速地使用笔记本电脑(个人PC)本地部署和体验量化版大模型 | github |
Efficient Alpaca | 基于LLaMA实现的开源项目,旨在通过微调 LLaMA-7B模型在资源消耗更少、推理速度更快、更适合研究者使用方面提高Stanford Alpaca的性能 | github |
ChatGLM-6B-Slim | 裁减掉20K图片Token的ChatGLM-6B,完全一样的性能,占用更小的显存 | github |
Chinese-Vicuna | 一个中文低资源的llama+lora方案 | github |
Alpaca-LoRA | 用LoRA在消费级硬件上复现斯坦福Alpaca的结果 | github |
LLM Accelerator | 让基础大模型更聪明的LLM Accelerator来了!基础大模型正在诸多应用中发挥着日益重要的作用。大多数大语言模型的训练都是采取自回归的方式进行生成,虽然自回归模型生成的文本质量有所保证,但却导致了高昂的推理成本和长时间的延迟。由于大模型的参数量巨大、推理成本高,因此如何在大规模部署大模型的过程中降低成本、减小延迟是一个关键课题。针对此问题,微软亚洲研究院的研究员们提出了一种使用参考文本无损加速大语言模型推理的方法 LLM Accelerator,在大模型典型的应用场景中可以取得两到三倍的加速。 | blog |
大语言模型(LLM)微调技术笔记 | github | |
PyLLMs | 简洁的 Python 库,用于连接各种 LLM(OpenAI、Anthropic、Google、AI21、Cohere、Aleph Alpha、HuggingfaceHub),内置模型性能基准。非常适合快速原型设计和评估不同模型,具有以下特点:通过少量代码连接顶级 LLM;响应元数据包括处理的Token、成本和延迟,对各个模型进行标准化;支持多模型:同时从不同模型获取补全;LLM 基准:评估模型的质量、速度和成本 | github |
用混合精度加速大型语言模型 | 通过使用低精度浮点数运算,可以将训练和推断速度提升多达3倍,同时不影响模型准确性 | blog |
新的LLM训练方法 Federate | 杜克大学和微软一起发布了一个新的LLM训练方法 Federated GPT,这个训练方法是将原本中心化的训练方法分散到不同的边缘设备里面(edge device),然后训练完成后,再上传到中心去将各子模型合并。 | github |
提示工程
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
OpenBuprompt-engineering-note | 提示工程笔记(课程总结)》介绍了面向开发者的 ChatGPT Prompt Engineering Learning Notes 课程,该课程提供了语言模型的工作原理和提示工程实践,并展示了如何将语言模型 API 应用于各种任务的应用程序中。课程包括总结、推断、转换、扩展和打造聊天机器人等方面的内容,并讲述了如何设计好的提示和构建自定义聊天机器人。 | github-OpenBuprompt |
提示工程指南 | link | |
AIGC提示工程学习站 Learn Prompt | ChatGPT/Midjourney/Runway | link |
Prompts 精选 - ChatGPT 使用指南 | ChatGPT 使用指南,提升 ChatGPT 可玩性和可用性 | github |
非官方的ChatGPT资源聚合列表,旨在汇总使用ChatGPT | 旨在汇总使用ChatGPT的应用、Web应用、浏览器扩展、CLI工具、机器人、集成、软件包、文章等资源 | github |
Snack Prompt:ChatGPT Prompt提示分享社区 | link | |
ChatGPT提问技巧 | 如何向 ChatGPT 提问以获得高质量答案:提示技巧工程完全指南 | github |
rompt-Engineering-Guide-Chinese - 提示工程师指南 | 源自英文版,但增加了AIGC的prompt部分 | github |
OpenPrompt | 一个开放的共享Prompt社区,大家一起推荐好用的prompt | github |
GPT-Prompts | 教你如何用GPT生成Prompts | github |
类ChatGPT的文档问答
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
privateGPT | 基于GPT4All-J的私有化部署文档问答平台,无需联网,能100%保证用户的隐私不泄露。提供了一个API,用户可以使用自己的文档进行交互式问答和生成文本。此外,平台支持自定义训练数据和模型参数,以满足个性化需求 | github-privateGPT |
Auto-evaluator | 文档问答的自动评估 ;、 | github |
PDF GP | 一个基于 GPT 实现的开源 PDF 文档聊天方案,主要实现以下功能:跟 PDF 文档进行一对一对话;自动切割内容,并使用强大的深度平均网络编码器来生成嵌入;对 PDF 内容执行语义搜索,并将最相关的嵌入传递给 Open AI;自定义逻辑,生成更精确的响应信息,速度要比 OpenAI 的快。 | github |
Redis-LLM-Document-Chat | 用LlamaIndex、Redis和OpenAI与PDF文档进行交互,包含一个Jupyter笔记本,演示了如何使用Redis作为向量数据库来存储和检索文档向量,还展示了如何使用LlamaIndex在文档中执行语义搜索,以及如何利用OpenAI提供类似聊天机器人的体验 | github |
doc-chatbot | GPT-4 + Pinecone + LangChain + MongoDB实现的文档聊天机器人,可多文件、多话题和多窗口聊天,聊天历史由MongoDB保存 | github |
document.ai | 基于向量数据库与GPT3.5的通用本地知识库方案(A universal local knowledge base solution based on vector database and GPT3.5) | github |
DocsGPT | DocsGPT是一种尖端的开源解决方案,可以简化在项目文档中查找信息的过程。通过集成强大的GPT模型,开发人员可以轻松地提出关于项目的问题并获得准确的答案。 | github |
ChatGPT Retrieval Plugin | ChatGPT检索插件存储库提供了一种灵活的解决方案,可以使用自然语言查询对个人或组织文档进行语义搜索和检索。 | github |
LamaIndex | lamaIndex(GPT索引)是您的LLM应用程序的数据框架。 | github |
chatWeb | ChatWeb可以爬取任意网页或PDF,DOCX,TXT文件并提取正文,可以生成嵌入式概要,可以根据正文内容回答你的问题。 基于gpt3.5的chatAPI和embeddingAPI,以及向量数据库实现。 | github |
类ChatGPT的行业应用
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
新闻报道进行情感分析 | 用ChatGPT通过对上市公司的新闻报道进行情感分析,在15个月时间内在股票市场(交易期权)产生了500%的回报(在历史数据中测试得出的结果)——探讨了ChatGPT在利用新闻标题的情感分析来预测股市回报方面的潜力。发现ChatGPT的情感分析能力超过了传统的方法,并且与股市回报呈正相关。提出ChatGPT在金融经济领域有很大的价值,并对未来的研究和应用提出了一些启示和建议 | paper |
编程语言生成模型 StarCoder | BigCode是 ServiceNow Inc. 和 Hugging Face Inc. 合作成立的。StarCoder 有多个版本。核心版本 StarCoderBase 具有 155 亿个参数,支持80多种编程语言,8192个token的上下文。视频为其vscode插件效果 | github |
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages | code generation | paper |
MedicalGPT-zh:中文医疗通用语言模型 | 中文医疗通用语言模型,基于28个科室的医疗共识与临床指南文本,提高模型的医疗领域知识与对话能力 | github |
MagicSlides | 不少人梦寐以求的AI自作PPT,免费版每月能做3个PPT,支持2500字输入 | link |
SalesGPT | 使用LLM实现上下文感知的销售助手,可自动化销售拓展代表的活动,如外呼销售电话 | github |
华驼(HuaTuo): 基于中文医学知识的LLaMA微调模型 | github | |
ai-code-translator | 帮助你把代码从一种语言翻译成另一种语言,这事对ChatGPT来说简直太擅长了,尤其是GPT-4,翻译质量相当高,而且tokens长度也可以更长。 | github |
ChatGenTitle | 使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型 | github |
Regex.ai | 一款所见即所得的,基于 AI 的正则表达式自动生成工具,只需要选择出数据,它就能帮你写正则表达式,并提供多种提取数据的方式 | video |
ChatDoctor | 一个基于医学领域知识微调LLaMA的医学聊天模型,其中医学数据包含大约700种疾病的数据、以及大约5000段医生和病人的对话记录 | paper |
CodeGPT | 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更擅长编程 | github |
LaWGPT | 一系列基于中文法律知识的开源大语言模型 | github |
LangChain-ChatGLM-Webui | 受langchain-ChatGLM启发, 利用LangChain和ChatGLM-6B系列模型制作的Webui, 提供基于本地知识的大模型应用.目前支持上传 txt、docx、md、pdf等文本格式文件, 提供包括ChatGLM-6B系列、Belle系列等模型文件以及GanymedeNil/text2vec-large-chinese、nghuyong/ernie-3.0-base-zh、nghuyong/ernie-3.0-nano-zh等Embedding模型. | github |
类ChatGPT的课程资料
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Databricks | (Dolly模型的作者)在edX发布了两个免费课程程,其中第二个是关于LLM是如何构建的。 | link |
大语言模型技术分享系列 | 东北大学自然语言处理实验室 | video |
GPT-4是如何工作的?如何利用GPT-4打造智能程序? | 哈佛大学CS50公开课 | video |
提示工程最佳实践:Andrew Ng 提示工程新课摘要+LangChain经验总结 | medium_blog | |
微调LLM模型 | 如果你对微调LLM模型感兴趣,一定要关注这个油管博主,他把几乎世面上所有的LLM模型都公开了微调的方法。 | 油管博主 Sam Witteveen |
Transformer的架构解读 | 通俗易懂的介绍 | youtube1youtube2 youtube3 |
Transformer multi head机制的视频 | 如果想要真正理解整个Transform的每一个细节,包括里面的数学原理,可以看一下这个视频,真的是剖析地非常详细 | youtube |
Introduction to Large Language Models | 大语言模型介绍 | 介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整以及Google的Gen AI开发工具。 |
LLM的安全问题
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
LLM模型安全研究 | link | |
Chatbot Injections & Exploit | 收集了一些Chatbot注入和漏洞的例子,以帮助人们了解Chatbot的潜在漏洞和脆弱性。注入和攻击的方式包括命令注入、字符编码、社交工程、表情符号、Unicode等。仓库提供了一些示例,其中一些包括可用于攻击Chatbot的表情符号列表 | github |
GPTSecurity | 一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。 | github |
多模态LLM
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
DeepFloyd IF | 高度逼真且具有语言理解能力的最新开源文本到图像模型,由一个冻结文本编码器和三个连续的像素扩散模块组成,是一个高效的模型,性超越了当前最先进的模型,在COCO数据集上实现了零样本的FID得分为6.66 | github |
Multi-modal GPT | 用多模态GPT训练一个能同时接收视觉和语言指令的聊天机器人。基于OpenFlamingo多模态模型,使用各种开放数据集创建各种视觉指导数据,联合训练视觉和语言指导,有效提高模型性能 | github |
AudioGPT | Understanding and Generating Speech, Music, Sound, and Talking Head' by AIGC-Audio | github |
text2image-prompt-generator | 基于GPT-2用25万条Midjourney的promps训练出来的小模型,可以生成高质量的Midjourney prompt | link data |
汇总6个Midjourney以外的免费以文生图服务: | Bing Image Creator Playground AI DreamStudio Pixlr Leonardo AI Craiyon | |
BARK | 一个非常强大的TTS(文字转语音)项目,这个项目的特点是,它可以在文字中加入提示词,比如“大笑”。这个提示词会变成笑的声音,然后合成到语音里去。它也可以混合“男声”,“女声”,这样再做就可以不用再做拼接操作了 | github |
whisper | 在语音转文字(STT,也称ASR)方面,whisper是我用过的最好的,最快的库。没想到,这么快的模型,还能70x的优化空间。我准备部署这个模型,并开放给大家使用,可以用来转录大的语音文件,和进行翻译。这个模型是多语言的,而且能自动识别是什么语言,真的非常强大 | github |
OFA-Chinese:中文多模态统一预训练模型 | transformers结构的中文OFA模型 | github |
文生图开源模型试炼场 | 可根据输入文字同时用stable-diffusion 1.5、stable-diffusion 2.1、DALL-E、kandinsky-2等模型生成图像,方便测试比较 | link |
LLMScore | LLMScore是一种全新的框架,能够提供具有多粒度组合性的评估分数。它使用大语言模型(LLM)来评估文本到图像生成模型。首先,将图像转化为图像级别和对象级别的视觉描述,然后将评估指令输入到LLM中,以衡量合成图像与文本的对齐程度,并最终生成一个评分和解释。我们的大量分析显示,LLMScore在众多数据集上与人类判断的相关性最高,明显优于常用的文本-图像匹配度量指标CLIP和BLIP。 | papergithub |
VisualGLM-6B | VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。 | github |
LLM的数据集
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
歧义数据集 | 能否正确的消除歧义是衡量大语言模型的一个重要指标。不过一直没有一个标准化的衡量方法,这篇论文提出了一个包含1,645个具有不同种类歧义的数据集及对应的评估方法。 | github paper |
thu指令训练数据 | 设计了一套流程来自动产生多样化高质量的多轮指令对话数据UltraChat,并进行了细致的人工后处理。现已将英文数据全部开源,共计150余万条,是开源社区数量最多的高质量指令数据之一 | github |
多模态数据集MMC4 | 5.8亿图片,1亿文档,400亿token | github |
EleutherAI 数据 | 800g的文本语料给你整合好了免费下载,不知道trian出来的model质量如何,打算试试: | pile data paper |
UltraChat | 大规模、信息丰富、多样化的多轮对话数据 | github |
ConvFinQA金融数据问答 | github | |
The botbots dataset | 一个包含对话内容的数据集,对话内容来自于两个ChatGPT实例(gpt-3.5-turbo),CLT命令和对话提示来自GPT-4,覆盖多种情境和任务,生成成本约为35美元,可用于研究和训练更小的对话模型(如Alpaca) | github |
alpaca_chinese_dataset - 人工精调的中文对话数据集 | github | |
CodeGPT-data | 提高编程能力的关键在于数据。CodeGPT是通过GPT生成的用于GPT的代码对话数据集。现在公开了32K条中文数据,让模型更擅长编程 | github |
语料库
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
人名语料库 | wainshine/Chinese-Names-Corpus | |
Chinese-Word-Vectors | 各种中文词向量 | github repo |
中文聊天语料 | 该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料 | link |
中文谣言数据 | 该数据文件中,每一行为一条json格式的谣言数据 | github |
中文问答数据集 | 链接 提取码 2dva | |
微信公众号语料 | 3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文 | github |
中文自然语言处理 语料、数据集 | github | |
任务型对话英文数据集 | 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 | github |
语音识别语料生成工具 | 从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库 | github |
LitBankNLP数据集 | 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 | github |
中文ULMFiT | 情感分析 文本分类 语料及模型 | github |
省市区镇行政区划数据带拼音标注 | github | |
教育行业新闻 自动文摘 语料库 | github | |
中文自然语言处理数据集 | github | |
维基大规模平行文本语料 | 85种语言、1620种语言对、135M对照句 | github |
古诗词库 | github repo 更全的古诗词库 |
|
低内存加载维基百科数据 | 用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s | github |
对联数据 | 700,000 couplets, 超过70万对对联 | github |
《配色辞典》数据集 | github | |
42GB的JD客服对话数据(CSDD) | github | |
70万对联数据 | link | |
用户名黑名单列表 | github | |
依存句法分析语料 | 4万句高质量标注数据 | Homepage |
人民日报语料处理工具集 | github | |
虚假新闻数据集 fake news corpus | github | |
诗歌质量评价/细粒度情感诗歌语料库 | github | |
中文自然语言处理相关的开放任务 | 数据集以及当前最佳结果 | github |
中文缩写数据集 | github | |
中文任务基准测评 | 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜 | github |
中文谣言数据库 | github | |
CLUEDatasetSearch | 中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集 | github |
多文档摘要数据集 | github | |
让人人都变得“彬彬有礼”礼貌迁移任务 | 在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集 | paper and code |
粤语/英语会话双语语料库 | github | |
中文NLP数据集列表 | github | |
类人名/地名/组织机构名的命名体识别数据集 | github | |
中文语言理解测评基准 | 包括代表性的数据集&基准模型&语料库&排行榜 | github |
OpenCLaP多领域开源中文预训练语言模型仓库 | 民事文书、刑事文书、百度百科 | github |
中文全词覆盖BERT及两份阅读理解数据 | DRCD数据集:由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。 CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。 |
github |
Dakshina数据集 | 十二种南亚语言的拉丁/本地文字平行数据集合 | github |
OPUS-100 | 以英文为中心的多语(100种)平行语料 | github |
中文阅读理解数据集 | github | |
中文自然语言处理向量合集 | github | |
中文语言理解测评基准 | 包括代表性的数据集、基准(预训练)模型、语料库、排行榜 | github |
NLP数据集/基准任务大列表 | github | |
LitBankNLP数据集 | 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 | github |
70万对联数据 | github | |
文言文(古文)-现代文平行语料 | 短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并 | github |
COLDDateset,中文冒犯性语言检测数据集 | 涵盖了种族、性别和地区等话题内容,数据待论文发表后放出 | paper |
GAOKAO-bench:以中国高考题目作为数据集 | 以中国高考题目作为数据集,评估大语言模型的语言理解能力和逻辑推理能力的测评框架,包含1781道选择题、218道填空题和812道解答题 | github |
zero to nlp - 中文nlp应用数据、模型、训练、推理 | github |
词库及词法工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
textfilter | 中英文敏感词过滤 | observerss/textfilter |
人名抽取功能 | 中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典 | cocoNLP |
中文缩写库 | 全国人大: 全国 人民 代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vn | github |
汉语拆字词典 | 漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥 | kfcd/chaizi |
词汇情感值 | 山泉水:0.400704566541 充沛: 0.37006739587 |
rainarch/SentiBridge |
中文词库、停用词、敏感词 | dongxiexidian/Chinese | |
python-pinyin | 汉字转拼音 | mozillazg/python-pinyin |
zhtools | 中文繁简体互转 | skydark/nstools |
英文模拟中文发音引擎 | say wo i ni #说:我爱你 | tinyfool/ChineseWithEnglish |
chinese_dictionary | 同义词库、反义词库、否定词库 | guotong1988/chinese_dictionary |
wordninja | 无空格英文串分割、抽取单词 | wordninja |
汽车品牌、汽车零件相关词汇 | data | |
THU整理的词库 | IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库 | link |
罪名法务名词及分类模型 | 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 | github |
分词语料库+代码 | 百度网盘链接 - 提取码 pea6 | |
基于Bi-LSTM + CRF的中文分词+词性标注 | keras实现 | link |
基于Universal Transformer + CRF 的中文分词和词性标注 | link | |
快速神经网络分词包 | java version | |
chinese-xinhua | 中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字 | github |
SpaCy 中文模型 | 包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。 | github |
中文字符数据 | github | |
Synonyms中文近义词工具包 | github | |
HarvestText | 领域自适应文本挖掘工具(新词发现-情感分析-实体链接等) | github |
word2word | 方便易用的多语言词-词对集62种语言/3,564个多语言对 | github |
多音字词典数据及代码 | github | |
汉字、词语、成语查询接口 | github | |
103976个英语单词库包 | (sql版,csv版,Excel版) | github |
英文脏话大列表 | github | |
词语拼音数据 | github | |
186种语言的数字叫法库 | github | |
世界各国大规模人名库 | github | |
汉字字符特征提取器 (featurizer) | 提取汉字的特征(发音特征、字形特征)用做深度学习的特征 | github |
char_featurizer - 汉字字符特征提取工具 | github | |
中日韩分词库mecab的Python接口库 | github | |
g2pC基于上下文的汉语读音自动标记模块 | github | |
ssc, Sound Shape Code | 音形码 - 基于“音形码”的中文字符串相似度计算方法 | version 1 version 2 blog/introduction |
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧 | github | |
Tokenizer快速、可定制的文本词条化库 | github | |
Tokenizers | 注重性能与多功能性的最先进分词器 | github |
通过同义词替换实现文本“变脸” | github | |
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库 | github | |
繁简体转换 | github | |
粤语NLP工具 | github | |
领域词典库 | 涵盖68个领域、共计916万词的专业词典知识库 | github |
预训练语言模型&大模型
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
BMList | 大模型大列表 | github |
bert论文中文翻译 | link | |
bert原作者的slides | link | |
文本分类实践 | github | |
bert tutorial文本分类教程 | github | |
bert pytorch实现 | github | |
bert pytorch实现 | github | |
BERT生成句向量,BERT做文本分类、文本相似度计算 | github | |
bert、ELMO的图解 | github | |
BERT Pre-trained models and downstream applications | github | |
语言/知识表示工具BERT & ERNIE | github | |
Kashgari中使用gpt-2语言模型 | github | |
Facebook LAMA | 用于分析预训练语言模型中包含的事实和常识知识的探针。语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口 | github |
中文的GPT2训练代码 | github | |
XLMFacebook的跨语言预训练语言模型 | github | |
海量中文预训练ALBERT模型 | github | |
Transformers 20 | 支持TensorFlow 20 和 PyTorch 的自然语言处理预训练语言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8种架构/33种预训练模型/102种语言 | github |
8篇论文梳理BERT相关模型进展与反思 | github | |
法文RoBERTa预训练语言模型 | 用138GB语料训练的法文RoBERTa预训练语言模型 | link |
中文预训练 ELECTREA 模型 | 基于对抗学习 pretrain Chinese Model | github |
albert-chinese-ner | 用预训练语言模型ALBERT做中文NER | github |
开源预训练语言模型合集 | github | |
中文ELECTRA预训练模型 | github | |
用Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)预测下一个词(模型比较) | github | |
TensorFlow Hub | 40+种语言的新语言模型(包括中文) | link |
UER | 基于不同语料、编码器、目标任务的中文预训练模型仓库(包括BERT、GPT、ELMO等) | github |
开源预训练语言模型合集 | github | |
多语言句向量包 | github | |
Language Model as a Service (LMaaS) | 语言模型即服务 | github |
开源语言模型GPT-NeoX-20B | 200亿参数,是目前最大的可公开访问的预训练通用自回归语言模型 | github |
中文科学文献数据集(CSL) | 包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。 | github |
大模型开发神器 | github |
抽取
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
时间抽取 | 已集成到 python package cocoNLP中,欢迎试用 | java version python version |
神经网络关系抽取 pytorch | 暂不支持中文 | github |
基于bert的命名实体识别 pytorch | 暂不支持中文 | github |
关键词(Keyphrase)抽取包 pke | github | |
BLINK最先进的实体链接库 | github | |
BERT/CRF实现的命名实体识别 | github | |
支持批并行的LatticeLSTM中文命名实体识别 | github | |
构建医疗实体识别的模型 | 包含词典和语料标注,基于python | github |
基于TensorFlow和BERT的管道式实体及关系抽取 | - Entity and Relation Extraction Based on TensorFlow and BERT 基于TensorFlow和BERT的管道式实体及关系抽取,2019语言与智能技术竞赛信息抽取任务解决方案。Schema based Knowledge Extraction, SKE 2019 | github |
中文命名实体识别NeuroNER vs BertNER | github | |
基于BERT的中文命名实体识别 | github | |
中文关键短语抽取工具 | github | |
bert | 用于中文命名实体识别 tensorflow版本 | github |
bert-Kashgari | 基于 keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型 | github |
cocoNLP | 人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake短语抽取算法。 | github |
Microsoft多语言数字/单位/如日期时间识别包 | github | |
百度开源的基准信息抽取系统 | github | |
中文地址分词(地址元素识别与抽取),通过序列标注进行NER | github | |
基于依存句法的开放域文本知识三元组抽取和知识库构建 | github | |
基于预训练模型的中文关键词抽取方法 | github | |
chinese_keyphrase_extractor (CKPE) | A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具 | github |
简单的简历解析器,用来从简历中提取关键信息 | github | |
BERT-NER-Pytorch三种不同模式的BERT中文NER实验 | github |
知识图谱
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
清华大学XLORE中英文跨语言百科知识图谱 | 百度、中文维基、英文维基 | link |
文档图谱自动生成 | github | |
基于医疗领域知识图谱的问答系统 | github 该repo参考了github |
|
中文人物关系知识图谱项目 | github | |
AmpliGraph 知识图谱表示学习(Python)库知识图谱概念链接预测 | github | |
中文知识图谱资料、数据及工具 | github | |
基于百度百科的中文知识图谱 | 抽取三元组信息,构建中文知识图谱 | github |
Zincbase 知识图谱构建工具包 | github | |
基于知识图谱的问答系统 | github | |
知识图谱深度学习相关资料整理 | github | |
东南大学《知识图谱》研究生课程(资料) | github | |
知识图谱车音工作项目 | github | |
《海贼王》知识图谱 | github | |
132个知识图谱的数据集 | 涵盖常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教 | link |
大规模、结构化、中英文双语的新冠知识图谱(COKG-19) | link | |
基于依存句法与语义角色标注的事件三元组抽取 | github | |
抽象知识图谱 | 目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象 | github |
大规模中文知识图谱数据14亿实体 | github | |
Jiagu自然语言处理工具 | 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能 | github |
medical_NER - 中文医学知识图谱命名实体识别 | github | |
知识图谱相关学习资料/数据集/工具资源大列表 | github | |
LibKGE面向可复现研究的知识图谱嵌入库 | github | |
基于mongodb存储的军事领域知识图谱问答项目 | 包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识库,该项目不使用图数据库进行存储,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答思想demo。 | github |
京东商品知识图谱 | github | |
基于远监督的中文关系抽取 | github | |
基于医药知识图谱的智能问答系统 | github | |
BLINK最先进的实体链接库 | github | |
一个小型的证券知识图谱/知识库 | github | |
dstlr非结构化文本可扩展知识图谱构建平台 | github | |
百度百科人物词条属性抽取 | 用基于BERT的微调和特征提取方法来进行知识图谱 | github |
新冠肺炎相关数据 | 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) | github github |
DGL-KE 图嵌入表示学习算法 | github | |
因果关系图谱 | method data | |
基于多领域文本数据集的因果事件对 | link |
文本生成
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Texar | Toolkit for Text Generation and Beyond | github |
Ehud Reiter教授的博客 | link 北大万小军教授强力推荐,该博客对NLG技术、评价与应用进行了深入的探讨与反思。 | |
文本生成相关资源大列表 | github | |
开放域对话生成及在微软小冰中的实践 | 自然语言生成让机器掌握自动创作的本领 | link |
文本生成控制 | github | |
自然语言生成相关资源大列表 | github | |
用BLEURT评价自然语言生成 | link | |
自动对联数据及机器人 | 代码 link 70万对联数据 |
|
自动生成评论 | 用Transformer编解码模型实现的根据Hacker News文章标题生成评论 | github |
自然语言生成SQL语句(英文) | github | |
自然语言生成资源大全 | github | |
中文生成任务基准测评 | github | |
基于GPT2的特定主题文本生成/文本增广 | github | |
编码、标记和实现一种可控高效的文本生成方法 | github | |
TextFooler针对文本分类/推理的对抗文本生成模块 | github | |
SimBERT | 基于UniLM思想、融检索与生成于一体的BERT模型 | github |
新词生成及造句 | 不存在的词用GPT-2变体从头生成新词及其定义、例句 | github |
由文本自动生成多项选择题 | github | |
合成数据生成基准 | github | |
文本摘要
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文文本摘要/关键词提取 | github | |
基于命名实体识别的简历自动摘要 | github | |
文本自动摘要库TextTeaser | 仅支持英文 | github |
基于BERT等最新语言模型的抽取式摘要提取 | github | |
Python利用深度学习进行文本摘要的综合指南 | link | |
(Colab)抽象文本摘要实现集锦(教程 | github |
智能问答
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文聊天机器人 | 根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景 | github |
有趣的情趣robot qingyun | qingyun 训练出来的中文聊天机器人 | github |
开放了对话机器人、知识图谱、语义理解、自然语言处理工具及数据 | github | |
qa对的机器人 | Amodel-for-Retrivalchatbot - 客服机器人,Chinese Retreival chatbot(中文检索式机器人) | git |
ConvLab开源多域端到端对话系统平台 | github | |
基于最新版本rasa搭建的对话系统 | github | |
基于金融-司法领域(兼有闲聊性质)的聊天机器人 | github | |
端到端的封闭域对话系统 | github | |
MiningZhiDaoQACorpus | 580万百度知道问答数据挖掘项目,百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘 | github |
用于中文闲聊的GPT2模型GPT2-chitchat | github | |
基于检索聊天机器人多轮响应选择相关资源列表(Leaderboards、Datasets、Papers) | github | |
微软对话机器人框架 | github | |
chatbot-list | 行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍 | github |
Chinese medical dialogue data 中文医疗对话数据集 | github | |
一个大规模医疗对话数据集 | 包含110万医学咨询,400万条医患对话 | github |
大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ | paper & data | |
开源对话式信息搜索平台 | github | |
情境互动多模态对话挑战2020(DSTC9 2020) | github | |
用Quora问题对训练的T5问题意译(Paraphrase) | github | |
Google发布Taskmaster-2自然语言任务对话数据集 | github | |
Haystack灵活、强大的可扩展问答(QA)框架 | github | |
端到端的封闭域对话系统 | github | |
Amazon发布基于知识的人-人开放领域对话数据集 | github | |
基于百度webqa与dureader数据集训练的Albert Large QA模型 | github | |
CommonsenseQA面向常识的英文QA挑战 | link | |
MedQuAD(英文)医学问答数据集 | github | |
基于Albert、Electra,用维基百科文本作为上下文的问答引擎 | github | |
基于14W歌曲知识库的问答尝试 | 功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 | github |
文本纠错
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文文本纠错模块代码 | github | |
英文拼写检查库 | github | |
python拼写检查库 | github | |
GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集 | github | |
BertPunc基于BERT的最先进标点修复模型 | github | |
中文写作校对工具 | github | |
文本纠错文献列表 | Chinese Spell Checking (CSC) and Grammatical Error Correction (GEC) | github |
文本智能校对大赛冠军方案 | 已落地应用,来自苏州大学、达摩院团队 | link |
多模态
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文多模态数据集「悟空」 | 华为诺亚方舟实验室开源大型,包含1亿图文对 | github |
中文图文表征预训练模型Chinese-CLIP | 中文版本CLIP预训练模型,开源多个模型规模,几行代码搞定中文图文表征提取 & 图文检索 | github |
语音处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
ASR 语音数据集 + 基于深度学习的中文语音识别系统 | github | |
清华大学THCHS30中文语音数据集 | data_thchs30tgz-OpenSLR国内镜像 data_thchs30tgz test-noisetgz-OpenSLR国内镜像test-noisetgz resourcetgz-OpenSLR国内镜像 resourcetgz Free ST Chinese Mandarin Corpus Free ST Chinese Mandarin Corpus AIShell-1 开源版数据集-OpenSLR国内镜像 AIShell-1 开源版数据集 Primewords Chinese Corpus Set 1-OpenSLR国内镜像 Primewords Chinese Corpus Set 1 |
|
笑声检测器 | github | |
Common Voice语音识别数据集新版 | 包括来自42,000名贡献者超过1,400小时的语音样本,涵github | link |
speech-aligner | 从“人声语音”及其“语言文本”,产生音素级别时间对齐标注的工具 | github |
ASR语音大辞典/词典 | github | |
语音情感分析 | github | |
masr | 中文语音识别,提供预训练模型,高识别率 | github |
面向语音识别的中文文本规范化 | github | |
语音质量评价指标(MOSNet, BSSEval, STOI, PESQ, SRMR) | github | |
面向语音识别的中文/英文发音辞典 | github | |
CoVoSTFacebook发布的多语种语音-文本翻译语料库 | 包括11种语言(法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文)的语音、文字转录及英文译文 | github |
Parakeet基于PaddlePaddle的文本-语音合成 | github | |
(Java)准确的语音自然语言检测库 | github | |
CoVoSTFacebook发布的多语种语音-文本翻译语料库 | github | |
TensorFlow 2 实现的文本语音合成 | github | |
Python音频特征提取包 | github | |
ViSQOL音频质量感知客观、完整参考指标,分音频、语音两种模式 | github | |
zhrtvc | 好用的中文语音克隆兼中文语音合成系统 | github |
aukit | 好用的语音处理工具箱,包含语音降噪、音频格式转换、特征频谱生成等模块 | github |
phkit | 好用的音素处理工具箱,包含中文音素、英文音素、文本转拼音、文本正则化等模块 | github |
zhvoice | 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字 | github |
audio面向语音行为检测 | 、二值化、说话人识别、自动语音识别、情感识别等任务的音频标注工具 | github |
深度学习情感文本语音合成 | github | |
Python音频数据增广库 | github | |
基于大规模音频数据集Audioset的音频增强 | github | |
语声迁移 | github |
文档处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
LayoutLM-v3文档理解模型 | github | |
PyLaia面向手写文档分析的深度学习工具包 | github | |
单文档非监督的关键词抽取 | github | |
DocSearch免费文档搜索引擎 | github | |
fdfgen | 能够自动创建pdf文档,并填写信息 | link |
pdfx | 自动抽取出引用参考文献,并下载对应的pdf文件 | link |
invoice2data | 发票pdf信息抽取 | invoice2data |
pdf文档信息抽取 | github | |
PDFMiner | PDFMiner能获取页面中文本的准确位置,以及字体或行等其他信息。它还有一个PDF转换器,可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF,可以用于文本分析以外的其他用途。 | link |
PyPDF2 | PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。 | link |
PyPDF2 | PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。 | link |
ReportLab | ReportLab能快速创建PDF 文档。经过时间证明的、超好用的开源项目,用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的,开源的,用Python编写的。该软件包每月下载5万多次,是标准Linux发行版的一部分,嵌入到许多产品中,并被选中为Wikipedia的打印/导出功能提供动力。 | link |
SIMPdfPython写的简单PDF文件文字编辑器 | github | |
pdf-diff | PDF文件diff工具 可显示两个pdf文档的差别 | github |
表格处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
用unet实现对文档表格的自动检测,表格重建 | github | |
pdftabextract | 用于OCR识别后的表格信息解析,很强大 | link |
tabula-py | 直接将pdf中的表格信息转换为pandas的dataframe,有java和python两种版本代码 | |
camelot | pdf表格解析 | link |
pdfplumber | pdf表格解析 | |
PubLayNet | 能够划分段落、识别表格、图片 | link |
从论文中提取表格数据 | github | |
用BERT在表格中寻找答案 | github | |
表格问答的系列文章 | 简介 模型 完结篇 |
|
使用GAN生成表格数据(仅支持英文) | github | |
carefree-learn(PyTorch) | 表格数据集自动化机器学习(AutoML)包 | github |
封闭域微调表格检测 | github | |
PDF表格数据提取工具 | github | |
TaBERT理解表格数据查询的新模型 | paper | |
表格处理 | Awesome-Table-Recognition | github |
文本匹配
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
句子、QA相似度匹配MatchZoo | 文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。 | github |
中文问题句子相似度计算比赛及方案汇总 | github | |
similarity相似度计算工具包 | java编写,用于词语、短语、句子、词法分析、情感分析、语义分析等相关的相似度计算 | github |
中文词语相似度计算方法 | 综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。 | gihtub |
Python字符串相似性算法库 | github | |
基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集 | 提供了10万个训练样本 | github |
文本数据增强
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文NLP数据增强(EDA)工具 | github | |
英文NLP数据增强工具 | github | |
一键中文数据增强工具 | github | |
数据增强在机器翻译及其他nlp任务中的应用及效果 | link | |
NLP数据增广资源集 | github |
常用正则表达式
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
抽取email的正则表达式 | 已集成到 python package cocoNLP中,欢迎试用 | |
抽取phone_number | 已集成到 python package cocoNLP中,欢迎试用 | |
抽取身份证号的正则表达式 | IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX]) IDs = re.findall(IDCards_pattern, text, flags=0) |
|
IP地址正则表达式 | (25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d) | |
腾讯QQ号正则表达式 | [1-9]([0-9]{5,11}) | |
国内固话号码正则表达式 | [0-9-()()]{7,18} | |
用户名正则表达式 | [A-Za-z0-9_-\u4e00-\u9fa5]+ | |
国内电话号码正则匹配(三大运营商+虚拟等) | github | |
正则表达式教程 | github |
文本检索
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
高效模糊搜索工具 | github | |
面向各语种/任务的BERT模型大列表/搜索引擎 | link | |
Deepmatch针对推荐、广告和搜索的深度匹配模型库 | github | |
wwsearch是企业微信后台自研的全文检索引擎 | github | |
aili - the fastest in-memory index in the East 东半球最快并发索引 | github | |
高效的字符串匹配工具 RapidFuzz | a fast string matching library for Python and C++, which is using the string similarity calculations from FuzzyWuzzy | github |
阅读理解
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
高效模糊搜索工具 | github | |
面向各语种/任务的BERT模型大列表/搜索引擎 | link | |
Deepmatch针对推荐、广告和搜索的深度匹配模型库 | github | |
allennlp阅读理解支持多种数据和模 | github |
情感分析
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
方面情感分析包 | github | |
awesome-nlp-sentiment-analysis | 情感分析、情绪原因识别、评价对象和评价词抽取 | github |
情感分析技术让智能客服更懂人类情感 | github |
事件抽取
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文事件抽取 | github | |
NLP事件提取文献资源列表 | github | |
PyTorch实现的BERT事件抽取(ACE 2005 corpus) | github | |
新闻事件线索抽取 | github |
机器翻译
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
无道词典 | 有道词典的命令行版本,支持英汉互查和在线查询 | github |
NLLB | 支持200+种语言任意互译的语言模型NLLB | link |
Easy-Translate | 在本地翻译大文本文件的脚本,基于Facebook/Meta AI的 M2M100模型和NLLB200模型,支持200+种语言 | github |
数字转换
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
最好的汉字数字(中文数字)-阿拉伯数字转换工具 | github | |
快速转化「中文数字」和「阿拉伯数字」 | github | |
将自然语言数字串解析转换为整数和浮点数 | github |
指代消解
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文指代消解数据 | github baidu ink code a0qq |
文本聚类
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
TextCluster短文本聚类预处理模块 Short text cluster | github |
文本分类
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
NeuralNLP-NeuralClassifier腾讯开源深度学习文本分类工具 | github |
知识推理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
GraphbrainAI开源软件库和科研工具,目的是促进自动意义提取和文本理解以及知识的探索和推断 | github | |
(哈佛)讲因果推理的免费书 |
可解释自然语言处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
文本机器学习模型最先进解释器库 | github |
文本攻击
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
TextAttack自然语言处理模型对抗性攻击框架 | github | |
OpenBackdoor: 文本后门攻防工具包 | OpenBackdoor基于Python和PyTorch开发,可用于复现、评估和开发文本后门攻防的相关算法 | github |
文本可视化
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Scattertext 文本可视化(python) | github | |
whatlies词向量交互可视化 | spacy工具 | |
PySS3面向可解释AI的SS3文本分类器机器可视化工具 | github | |
用记事本渲染3D图像 | github | |
attnvisGPT2、BERT等transformer语言模型注意力交互可视化 | github | |
Texthero文本数据高效处理包 | 包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等 | github |
文本标注工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
NLP标注平台综述 | github | |
brat rapid annotation tool 序列标注工具 | link | |
Poplar网页版自然语言标注工具 | github | |
LIDA轻量交互式对话标注工具 | github | |
doccano基于网页的开源协同多语言文本标注工具 | github | |
Datasaurai 在线数据标注工作流管理工具 | link |
语言检测
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
langid | 97种语言检测 | https://github.com/saffsd/langid.py |
langdetect | 语言检测 | https://code.google.com/archive/p/language-detection/ |
综合工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
jieba | jieba | |
hanlp | hanlp | |
nlp4han | 中文自然语言处理工具集(断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检 | github |
仇恨言论检测进展 | link | |
基于Pytorch的Bert应用 | 包括命名实体识别、情感分析、文本分类以及文本相似度等 | github |
nlp4han中文自然语言处理工具集 | 断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查 | github |
一些关于自然语言的基本模型 | github | |
用BERT进行序列标记和文本分类的模板代码 | github | |
jieba_fast 加速版的jieba | github | |
StanfordNLP | 纯Python版自然语言处理包 | link |
Python口语自然语言处理工具集(英文) | github | |
PreNLP自然语言预处理库 | github | |
nlp相关的一些论文及代码 | 包括主题模型、词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)计算等,涉及到各种与nlp相关的算法,基于keras和tensorflow | github |
Python文本挖掘/NLP实战示例 | github | |
Forte灵活强大的自然语言处理pipeline工具集 | github | |
stanza斯坦福团队NLP工具 | 可处理六十多种语言 | github |
Fancy-NLP用于建设商品画像的文本知识挖掘工具 | github | |
全面简便的中文 NLP 工具包 | github | |
工业界常用基于DSSM向量化召回pipeline复现 | github | |
Texthero文本数据高效处理包 | 包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等 | github |
nlpgnn图神经网络自然语言处理工具箱 | github | |
Macadam | 以Tensorflow(Keras)和bert4keras为基础,专注于文本分类、序列标注和关系抽取的自然语言处理工具包 | github |
LineFlow面向所有深度学习框架的NLP数据高效加载器 | github | |
Arabica:Python文本数据探索性分析工具包 | github | |
Python 压力测试工具:SMSBoom | github |
有趣搞笑工具
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
汪峰歌词生成器 | phunterlau/wangfeng-rnn | |
女友 情感波动分析 | github | |
NLP太难了系列 | github | |
变量命名神器 | github link | |
图片文字去除,可用于漫画翻译 | github | |
CoupletAI - 对联生成 | 基于CNN+Bi-LSTM+Attention 的自动对对联系统 | github |
用神经网络符号推理求解复杂数学方程 | github | |
基于14W歌曲知识库的问答机器人 | 功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 | github |
COPE - 格律诗编辑程序 | github | |
Paper2GUI | 一款面向普通人的AI桌面APP工具箱,免安装即开即用,已支持18+AI模型,内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR识别等领域 | github |
礼貌程度估算器(使用新浪微博数据训练) | github paper | |
草蟒(Python 中文版)入门指南 | 中文编程语言 | homepage gitee |
课程报告面试等
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
自然语言处理报告 | link | |
知识图谱报告 | link | |
数据挖掘报告 | link | |
自动驾驶报告 | link | |
机器翻译报告 | link | |
区块链报告 | link | |
机器人报告 | link | |
计算机图形学报告 | link | |
3D打印报告 | link | |
人脸识别报告 | link | |
人工智能芯片报告 | link | |
cs224n深度学习自然语言处理课程 | link 课程中模型的pytorch实现 link | |
面向深度学习研究人员的自然语言处理实例教程 | github | |
《Natural Language Processing》by Jacob Eisenstein | github | |
ML-NLP | 机器学习(Machine Learning)、NLP面试中常考到的知识点和代码实现 | github |
NLP任务示例项目代码集 | github | |
2019年NLP亮点回顾 | download | |
nlp-recipes微软出品--自然语言处理最佳实践和范例 | github | |
面向深度学习研究人员的自然语言处理实例教程 | github | |
Transfer Learning in Natural Language Processing (NLP) | youtube | |
《机器学习系统》图书 | link github |
比赛
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
NLPer-Arsenal | NLP竞赛,含当前赛事信息、过往竞赛方案等,持续更新中 | github |
复盘所有NLP比赛的TOP方案 | github | |
2019年百度的三元组抽取比赛,“科学空间队”源码(第7名) | github |
金融自然语言处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
BDCI2019金融负面信息判定 | github | |
开源的金融投资数据提取工具 | github | |
金融领域自然语言处理研究资源大列表 | github | |
基于金融-司法领域(兼有闲聊性质)的聊天机器人 | github | |
小型金融知识图谱构流程示范 | github |
医疗自然语言处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文医学NLP公开资源整理 | github | |
spaCy 医学文本挖掘与信息提取 | github | |
构建医疗实体识别的模型 | 包含词典和语料标注,基于python | github |
基于医疗领域知识图谱的问答系统 | github 该repo参考了github | |
Chinese medical dialogue data 中文医疗对话数据集 | github | |
一个大规模医疗对话数据集 | 包含110万医学咨询,400万条医患对话 | github |
新冠肺炎相关数据 | 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) | github github |
法律自然语言处理
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Blackstone面向非结构化法律文本的spaCy pipeline和NLP模型 | github | |
法务智能文献资源列表 | github | |
基于金融-司法领域(兼有闲聊性质)的聊天机器人 | github | |
罪名法务名词及分类模型 | 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 | github |
法律NLP相关资源大列表 | github |
文本生成图像
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Dalle-mini | 根据文本提示生成图片的迷你版DALL·E | github |
其他
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
phone | 中国手机归属地查询 | ls0f/phone |
phone | 国际手机、电话归属地查询 | AfterShip/phone |
ngender | 根据名字判断性别 | observerss/ngender |
中文对比英文自然语言处理NLP的区别综述 | link | |
各大公司内部里大牛分享的技术文档 PDF 或者 PPT | github | |
comparxiv 用于比较arXiv上两提交版本差异的命令 | pypi | |
CHAMELEON深度学习新闻推荐系统元架构 | github | |
简历自动筛选系统 | github | |
Python实现的多种文本可读性评价指标 | github |
最近版本更新:(数据更新于 2024-10-06 12:34:58)
fighting41love/funNLP同语言 Python最近更新仓库
2024-12-21 13:26:40 notepad-plus-plus/nppPluginList
2024-12-21 04:33:22 comfyanonymous/ComfyUI
2024-12-20 21:35:11 XiaoMi/ha_xiaomi_home
2024-12-20 20:52:05 ultralytics/ultralytics
2024-12-20 18:47:56 home-assistant/core
2024-12-20 13:31:02 Zipstack/unstract