Datawhale 三月组队学习计划
这次一共打算组织14个组队学习,涵盖了AI领域从理论知识到动手实践的内容,难度系数分为低、中、高档,可以按照需要参加哦
组队学习信息
1 /Python基础
课程设计:马晶敏,叶梁、许辉
组队学习说明:学习Python基础知识,针对Python小白的学习之路
任务路线:基础知识-函数-第三方模块-类和对象-基础爬虫
组队学习周期:10天
定位人群:Python小白,难度系数低
每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动
任务预览(2天)
1、环境搭建
2、Python初体验
3、Python基础
如:变量特性+命名规则、注释方法、“:”作用、学会使用dir( )及和help( )、import使用、pep8介绍
4、Python数值基本知识
如:Python中数值类型,int,float,bool,e记法等、算数运算符、逻辑运算符、成员运算符、身份运算符、运算符优先级
2 /数据分析
课程设计:金娟娟
组队学习说明:学习python for data analysis基础知识
任务路线:python基础-重要的python库(numpy/pandas/matplotlib/seaborn等)-数据清洗和分析
组队学习周期:15天定位人群:数据分析小白,难度系数低
每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动
任务预览(2天)
完成《利用python进行数据分析》书上1-2章的学习,代码实现的过程用上传到GitHub
3 /初级算法梳理
课程设计:苏静、康兵兵
组队学习说明:通过查阅书籍或参考文献、学习视频等,对传统机器学习算法进行梳理
任务路线:线性回归--->逻辑回归--->决策树
组队学习周期:7天
定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数低
每个任务完成大概所需时间:2-3h
任务预览(2天)
1. 机器学习的一些概念
有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
2. 线性回归的原理
3. 线性回归损失函数、代价函数、目标函数
4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)
5、线性回归的评估指标
6、sklearn参数详解
学习时长:两天
参考:西瓜书
cs229吴恩达机器学习课程
李航统计学习
谷歌搜索
4 /MySQL
课程设计:杨皓博 孙涛 杨煜
组队学习说明:一周内快速了解并掌握MySQL的主要内容。通过大量SQL语句的实战练习,可以在简历上写熟练掌握MySQL。(注意:本课程只关注SQL查询语句本身,对数据库的涉及较少。)
任务路线: MySQL软件安装及数据库基础->查询语句->表操作->表联结->MySQL 实战->MySQL 实战-复杂项目
组队学习周期:(7天)
定位人群:小白,难度系数低
每个任务完成大概所需时间:2-3h
任务预览(2天)
任务预览(3天)
软件安装及服务器设置。
数据库基础知识
MySQL数据库管理系统
SQL是什么?MySQL是什么?
查询语句 SELECT FROM
筛选语句 WHERE
分组语句 GROUP BY
排序语句 ORDER BY
SQL注释
SQL代码规范
5 /统计学
课程设计:王佳鑫、许辉
组队学习说明:学习内容涵盖统计学中所有的主要知识,并对其分部分进行梳理总结。
任务路线:根据所学习内容进行(1)统计学基本知识、二项及泊松分布、大数定律、正态分布等内容的总结进行整体的回顾、梳理与完善;(2)中心极限定理、置信区间、 假设检验等内容的总结进行整体的回顾、梳理与完善。
组队学习周期:7天
定位人群:微积分、基本概率知识储备,难度系数中
每个任务完成大概所需时间:2-3h
任务预览(2天)
学习内容 1:统计学基本知识、二项及泊松分布
学习内容 2: 大数定律、正态分布
6 /LeetCode
课程设计:老表、于鸿飞、杨皓博
组队学习说明:LeetCode刷题组队学习,从零开始每周10道算法题,在良好的学习氛围下,培养刷题习惯,学习算法思想。(不限制编程语言)
任务路线:按照LeetCode默认题目顺序每周10道题。
组队学习周期:7天
定位人群:适合有一门语言基础的同学,难度系数中
每个任务完成大概所需时间:2-3h
课程内容:选取leetcode上面的10道题
7 /知乎小组
课程设计:小尧、黑桃、李严
组队学习说明:到知乎回答问题,巩固自身所学的知识,锻炼写作输出和表达能力,提升个人影响力,小组以“写出自己的最佳回答”为总目标
任务路线:自己选择较为熟悉领域的相关1个问题,写出优质答案,并互相点评
组队学习周期:7天
定位人群:比较熟悉AI某领域,难度系数中,对输出能力有要求
3个任务完成所需时间:6-8h
在知乎上选择一道AI相关的题,回答并优化
8 /爬虫
课程设计:光城、李方
组队学习说明:
从零基础到能独立完成一个简易的爬虫项目
任务路线:请求→re库→BeautifulSoup库→lxml库→selenium库→IP问题→实战小项目
组队学习周期:7天
定位人群:有Python基础。难度系数中
每个任务完成大概所需时间:2-3h/天
任务预览(2天)
1、学习get与post请求,尝试使用requests或者是urllib用get方法向 https://www.baidu.com/ 发出一个请求,并将其返回结果输出。
2、如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。
3、了解什么是请求头,如何添加请求头。
4、学习什么是正则表达式并尝试一些正则表达式并进行匹配。
然后结合requests、re两者的内容爬取 https://movie.douban.com/top250 里的内容。
9 /高级算法梳理
课程设计:黑桃,刘广月,于鸿飞
组队学习说明:通过查阅相关文献,对机器学习算法进行梳理
任务路线:RF--->GBDT--->XGB
组队学习周期:7天
定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数中
每个任务完成大概所需时间:2-3h
任务预览(2天)
【参考框架】欢迎有自己的框架
1. 集成学习概念
2. 个体学习器概念
3. boosting bagging
4. 结合策略(平均法,投票法,学习法)
5. 随机森林思想
6. 随机森林的推广
7. 优缺点
8. sklearn参数
9.应用场景
10 /数据挖掘项目
课程设计:范晶晶、李碧涵、
组队学习说明:应用机器学习算法,完整地走完一个数据挖掘项目流程
任务路线:数据分析→特征工程→模型构建→模型评估→模型调优→模型融合
组队学习周期:12天
定位人群:有Python基础,sklearn基础。难度系数中
每个任务完成大概所需时间:2-3h/天
任务预览(2天)
要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018
任务1:对数据进行探索和分析。时间:2天
数据类型的分析
无关特征删除
数据类型转换
缺失值处理
……以及你能想到和借鉴的数据分析处理
11 /数据竞赛 - 达观杯
课程设计:胡稳 李振强 居居
组队学习说明:12天的时间实现数据预处理(TF-IDF与word2vec)、模型实践(朴素贝叶斯、SVM与LightGBM)以及模型优化的整套流程,一起完成一次NLP类型的比赛。
任务路线:数据初识->数据处理->模型实践->模型优化
组队学习周期:12天
定位人群:能够熟练使用python,难度系数中
每个任务完成大概所需时间:2-3h
任务预览(2天)
1、下载数据,读取数据,观察数据
(提取5000条数据进行实践)
2、将训练集拆分为训练集和验证集
分享自己对数据以及赛题的理解和发现;
12 /PyTorch基础
课程设计:许辉 李奇峰
组队学习说明:通过学习pytorch的基本操作,最终完成手写数字的识别
任务路线:安装pytorch->设立图并计算->实现逻辑回归->构建多层神经网络->PyTorch实现L1,L2正则化以及Dropout->书写优化器代码->用PyTorch完成手写数字识别
学习周期:7天
定位人群:熟悉python的基础用法,难度系数中
任务完成所需时间:2-3h/天
任务预览(2天)
什么是Pytorch,为什么选择Pytroch?
Pytroch的安装
配置Python环境
准备Python管理器
通过命令行安装PyTorch
PyTorch基础概念
通用代码实现流程
设立计算图并自动计算
阅读梯度下降代码并书写体会
写一个简单的神经网络
13 /深度学习-nlp
课程设计:jepson
组队学习说明:学习自然语言处理理论,并且通过对某些数据集的文本分类任务不断优化来进行实践。
任务路线:特征提取—>特征选择—>文本表示—>传统机器学习算法跑模型—>LDA生成新特征—>深度学习算法跑模型
定位人群:有Python基础,基本框架的基础(例如TensorFlow、Keras和pyTorch等)!难度系数高
组队学习周期:18天
每个任务完成大概所需时间:3-4h
任务预览(2天)
1、IMDB数据集下载和探索(参考TensorFlow官方教程)
2、THUCNews数据集下载和探索(参考博客中的数据集部分和预处理部分)
3、学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念
14 /编程
课程设计:光城 、LeoLRH
组队学习说明:利用自己所熟知的编程语言,具有一定基础,讨论在面试中可能出现的数据结构问题,一起学习重温经典数据结构
任务路线:数组->链表->栈->队列->递归->排序->二分查找->哈希表->字符串->二叉树->堆->图->回溯->分治->动态规划
组队学习周期:14天甚至往上大概16天左右(周末进行整体整理讨论)(每天任务时间具体看任务情况)
定位人群:有一门语言基础和算法基础的同学,难度系数高,小白慎入!!!
每个任务完成大概所需时间:平均每天学习时间在1个小时左右,晚上统一,半个小时进行集体讨论总结打卡。
任务预览(2天)
【数组】
实现一个支持动态扩容的数组
实现一个大小固定的有序数组,支持动态增删改操作
实现两个有序数组合并为一个有序数组
学习哈希表思想,并完成leetcode上的两数之和(1)及Happy Number(202)!(要求全部用哈希思想实现!)(选做)(注意:在第四天会进行继续学习)
练习:
Three Sum(求三数之和)
Majority Element(求众数)
Missing Positive(求缺失的第一个正数)
【链表】
实现单链表、循环链表、双向链表,支持增删操作
实现单链表反转
实现两个有序的链表合并为一个有序链表
实现求链表的中间结点
练习:
Linked List Cycle I(环形链表)
Merge k Sorted Lists(合并 k 个排序链表)
报名意向
我们会根据学习需求对Datawhale团队进行分工安排,不作为最终选择。
在这里投票:https://mp.weixin.qq.com/s/35v6Dl2jvrguDRG7eoY0cg
参与方式
image图片: 伊小雪
排版: 无 多 李 方