招生状态:招生中
课时安排:9周在线科研+5周在线论文指导
适合专业
适合计算机科学、人工智能、软件工程、语言学等专业或者希望修读相关专业的学生;
学生需要具备初步等线性代数基础,至少会使用一门编程语言实现如贝叶斯分类器等经典机器学习算法,有深度学习项目开发经验的申请者优先;
建议选修: Python编程与数据处理。
背景要求
本科阶段就读于美国Top50/英国Top10/其他地区大学 (QS-Top150)
国内世界一流大学建设高校A类(原985高校)
GPA:3.5
托福:90
雅思:6.5
项目收获
1. 9周小组科研学习+5周在线论文指导,共125课时
2. 项目报告
3. 优秀学员获主导师Reference Letter
4. EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等级别索引国际会议全文投递与发表指导(可用于申请)
5. 结业证书
6. 成绩单
项目介绍
项目内容包括线性回归、逻辑回归、决策树、SVM机器学习算法和自然语言处理中的文本分类问题。
学生将研究Word2Vec词支持嵌入、Doc2Vec文本支持生成、基于LSTM和其他RNN的分类算法,了解RNN模型缺陷以及基于Attention的Transformer语言模型如何弥补这些缺陷。
学生将在项目结束时,提交个性化研究课题项目报告,进行成果展示。个性化研究课题参考:
- 基于LSTM语言模型的多义词消歧
- 根据推文内容语义与语言习惯分析判断用户所在城市
- 发表基于NLP的微博内容调查报告
- 评估句子的有趣程度的自注意力算法优化
项目大纲
自然语言处理及深度神经网络语言建模和DNN简介
Word2Vec模型词嵌入
使用Word2Vec模型的词嵌入Doc2Vec:文档的向量化表示
Doc2Vec:文档的矢量化表示
数据驱动的分类算法与循环神经网络和长短期记忆网络数据驱动的分类算法;
循环神经网络和 LSTM循环神经网络的缺陷;
基于 Attention 的 Transformer 模型 RNN 的缺点;
基于注意力的变压器精度优化
SOTA基于迁移学习的语言模型Transfer Learning for Language Models
项目回顾与成果展示
方案回顾与展示
论文辅导
导师介绍
Pavlos哈佛大学项目主任
Pavlos教授现任哈佛大学应用计算科学研究所(IACS)项目主任,负责把控计算机科学、工程与数据科学专业的研究生培养方案与课程体系,教授数据科学核心课程。曾担任国家可扩展集群项目(NSCP)的副主任,这是在网格模型上进行大规模分布式计算的最初尝试之一。
同时,在哈佛 - 史密松天体物理中心担任过研究员,并担任由哈佛大学创新计算项目启动的“时间序列中心”的子项目的高级科学家、项目负责人。