语音和文本处理技术是使用计算机、通过可计算的方法对自然语言的各级语言单位进行识别、转换、理解、分析等一系列加工处理的科学与技术;是一门与语言学、计算机科学、数学、心理学、信息论等理论学科相联系的交叉性学科,在智能化时代具有十分广阔的应用前景。
本课题通过讲解理论知识、应用实践以及学生自选课题的项目指导,使目标为自然语言处理学术研究方向的学生掌握基本的自然语言(包括英语和汉语)处理技术,理解其相关的重要概念、基本原理和主要方法,了解当前国内外自然语言处理技术的发展概况。
机构课题名称
人工智能:基于机器学习或深度学习的NLP研究
本课题的核心内容:介绍计算语言学的发展概况和现存问题,NLP的理论知识,常用的语音和文本处理的方法与技术,以及自然语言处理中的经验主义和理性主义的技术路线;讲授文本处理的实验方法:词汇的频度统计及统计分布规律, WordNet、HowNet ,语言知识库的本体论,如何组织、检索语料库,词法分析,汉语分词、词性标注的常用方法,相似度计算,信息检索与TF-IDF,N-gram 统计语言模型的基本概念、构造方法,数据平滑的常用算法,N-gram 模型word2vec等的应用及评价等;讲解常见的机器学习方法,如感知机、SVM等,以及神经网络的基本理论知识,并介绍深度学习和人工智能技术在NLP方向的应用。
教授介绍
北京大学 副教授
美国TOP30院校访问学者,中国翻译学会、中国计算机学会成员。研究领域和方向包括计算语言学、应用语言学、书面/学术语言、语料库、文本处理等。
课题·收获
机构背景提升
●教授推荐信,支持网推
●国内普刊/国际普刊//CPCI/EI等同级别会议期刊发表
●完整的科研项目学习经历,提升文书素材竞争力
项目安排
机构背景提升
01 理论知识课
1)介绍计算语言学发展概况、主要问题、NLP关于理性主义和经验主义的技术路线;
2)讲授与 NLP 相关的原理与技术,引导学生理解NLP的应用前景;
3)指导学生阅读相关文献、调研方法、参考文献。
02 理论知识课
1)介绍文本处理中词汇的频度统计及统计分布规律;
2)介绍经典的情感词典 WordNet(英文)、HowNet(汉语);
3)讲解语言知识库的本体论;
4)介绍如何组织、检索语料库;
5)介绍关于语音学的基本知识、概率论基础知识以及信息论基础知识。
03文献研读课
1)讲解文本预处理的步骤:词法分析,汉语分词、词性标注的常用方法,未登录词处理,最小编辑距离,相似度计算,信息检索,TF-IDF;
2)介绍实验步骤。
04文献阅读课
1)讲解N-gram 统计语言模型的基本概念、构造方法,以及N-gram 模型的应用与评价;
2)介绍数据平滑的常用算法;
3)指导学生确定选题方向,并教授如何获取和选择数据集。
05实战应用课
1)讲解机器学习的基本原理;
2)介绍如何使用朴素贝叶斯方法实现文本分类;
3)讲解基于机器学习的文本自动分类与聚类方法;
4)介绍自然语言处理模型的评估指标(如错误率、精度、准确率、精确度、召回率、F1 等)。
06实战应用课
1)介绍隐马尔科夫模型的概念与算法原理,以及其在语音识别中的应用;
2)介绍神经网络的基本概念以及熟悉的算法与模型。
07 论文指导课
介绍深度学习的基本理论知识与人工智能技术在 NLP的应用。
08论文指导课+结题汇报课
科研报告初稿汇报及点评。
早规划,早准备,解锁更多可能性。不要相信什么高中生、本科生不要做科研的谣言,其实,学术成绩恰恰是世界认可度最高、收获价值最稳定的。哪怕你还是学术小白,也能通过专业教授辅导,好好努力收获高质量科研经历,为进入梦校保驾护航。