ApacheCN程序员

Datawhale 三月组队学习计划

2019-03-19  本文已影响22人  布客飞龙

这次一共打算组织14个组队学习,涵盖了AI领域从理论知识到动手实践的内容,难度系数分为低、中、高档,可以按照需要参加哦

组队学习信息

1 /Python基础

课程设计:马晶敏,叶梁、许辉

组队学习说明:学习Python基础知识,针对Python小白的学习之路

任务路线:基础知识-函数-第三方模块-类和对象-基础爬虫

组队学习周期:10天

定位人群:Python小白,难度系数低

每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动

任务预览(2天)

1、环境搭建

2、Python初体验

3、Python基础

如:变量特性+命名规则、注释方法、“:”作用、学会使用dir( )及和help( )、import使用、pep8介绍

4、Python数值基本知识

如:Python中数值类型,int,float,bool,e记法等、算数运算符、逻辑运算符、成员运算符、身份运算符、运算符优先级

2 /数据分析

课程设计:金娟娟

组队学习说明:学习python for data analysis基础知识

任务路线:python基础-重要的python库(numpy/pandas/matplotlib/seaborn等)-数据清洗和分析

组队学习周期:15天定位人群:数据分析小白,难度系数低

每个任务完成大概所需时间:每天平均花费时间2小时-4小时不等,根据个人学习接受能力强弱有所浮动

任务预览(2天)

完成《利用python进行数据分析》书上1-2章的学习,代码实现的过程用上传到GitHub

3 /初级算法梳理

课程设计:苏静、康兵兵

组队学习说明:通过查阅书籍或参考文献、学习视频等,对传统机器学习算法进行梳理

任务路线:线性回归--->逻辑回归--->决策树

组队学习周期:7天

定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数低

每个任务完成大概所需时间:2-3h

任务预览(2天)

1. 机器学习的一些概念

有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证

2. 线性回归的原理

3. 线性回归损失函数、代价函数、目标函数

4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)

5、线性回归的评估指标

6、sklearn参数详解

学习时长:两天

参考:西瓜书

cs229吴恩达机器学习课程

李航统计学习

谷歌搜索

4 /MySQL

课程设计:杨皓博 孙涛 杨煜

组队学习说明:一周内快速了解并掌握MySQL的主要内容。通过大量SQL语句的实战练习,可以在简历上写熟练掌握MySQL。(注意:本课程只关注SQL查询语句本身,对数据库的涉及较少。)

任务路线: MySQL软件安装及数据库基础->查询语句->表操作->表联结->MySQL 实战->MySQL 实战-复杂项目

组队学习周期:(7天)

定位人群:小白,难度系数低

每个任务完成大概所需时间:2-3h

任务预览(2天)

任务预览(3天)

软件安装及服务器设置。

数据库基础知识

MySQL数据库管理系统

SQL是什么?MySQL是什么?

查询语句 SELECT FROM

筛选语句 WHERE

分组语句 GROUP BY

排序语句 ORDER BY

SQL注释

SQL代码规范

5 /统计学

课程设计:王佳鑫、许辉

组队学习说明:学习内容涵盖统计学中所有的主要知识,并对其分部分进行梳理总结。

任务路线:根据所学习内容进行(1)统计学基本知识、二项及泊松分布、大数定律、正态分布等内容的总结进行整体的回顾、梳理与完善;(2)中心极限定理、置信区间、 假设检验等内容的总结进行整体的回顾、梳理与完善。

组队学习周期:7天

定位人群:微积分、基本概率知识储备,难度系数中

每个任务完成大概所需时间:2-3h

任务预览(2天)

学习内容 1:统计学基本知识、二项及泊松分布

学习内容 2: 大数定律、正态分布

6 /LeetCode

课程设计:老表、于鸿飞、杨皓博

组队学习说明:LeetCode刷题组队学习,从零开始每周10道算法题,在良好的学习氛围下,培养刷题习惯,学习算法思想。(不限制编程语言)

任务路线:按照LeetCode默认题目顺序每周10道题。

组队学习周期:7天

定位人群:适合有一门语言基础的同学,难度系数中

每个任务完成大概所需时间:2-3h

课程内容:选取leetcode上面的10道题

7 /知乎小组

课程设计:小尧、黑桃、李严

组队学习说明:到知乎回答问题,巩固自身所学的知识,锻炼写作输出和表达能力,提升个人影响力,小组以“写出自己的最佳回答”为总目标

任务路线:自己选择较为熟悉领域的相关1个问题,写出优质答案,并互相点评

组队学习周期:7天

定位人群:比较熟悉AI某领域,难度系数中,对输出能力有要求

3个任务完成所需时间:6-8h

在知乎上选择一道AI相关的题,回答并优化

8 /爬虫

课程设计:光城、李方

组队学习说明:

从零基础到能独立完成一个简易的爬虫项目

任务路线:请求→re库→BeautifulSoup库→lxml库→selenium库→IP问题→实战小项目

组队学习周期:7天

定位人群:有Python基础。难度系数中

每个任务完成大概所需时间:2-3h/天

任务预览(2天)

1、学习get与post请求,尝试使用requests或者是urllib用get方法向 https://www.baidu.com/ 发出一个请求,并将其返回结果输出。

2、如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。

3、了解什么是请求头,如何添加请求头。

4、学习什么是正则表达式并尝试一些正则表达式并进行匹配。

然后结合requests、re两者的内容爬取 https://movie.douban.com/top250 里的内容。

9 /高级算法梳理

课程设计:黑桃,刘广月,于鸿飞

组队学习说明:通过查阅相关文献,对机器学习算法进行梳理

任务路线:RF--->GBDT--->XGB

组队学习周期:7天

定位人群:有概率论、矩阵运算、求导、泰勒展开等基础数学知识;难度系数中

每个任务完成大概所需时间:2-3h

任务预览(2天)

【参考框架】欢迎有自己的框架

1. 集成学习概念

2. 个体学习器概念

3. boosting bagging

4. 结合策略(平均法,投票法,学习法)

5. 随机森林思想

6. 随机森林的推广

7. 优缺点

8. sklearn参数

9.应用场景

10 /数据挖掘项目

课程设计:范晶晶、李碧涵、

组队学习说明:应用机器学习算法,完整地走完一个数据挖掘项目流程

任务路线:数据分析→特征工程→模型构建→模型评估→模型调优→模型融合

组队学习周期:12天

定位人群:有Python基础,sklearn基础。难度系数中

每个任务完成大概所需时间:2-3h/天

任务预览(2天)

要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018

任务1:对数据进行探索和分析。时间:2天

数据类型的分析

无关特征删除

数据类型转换

缺失值处理

……以及你能想到和借鉴的数据分析处理

11 /数据竞赛 - 达观杯

课程设计:胡稳 李振强 居居

组队学习说明:12天的时间实现数据预处理(TF-IDF与word2vec)、模型实践(朴素贝叶斯、SVM与LightGBM)以及模型优化的整套流程,一起完成一次NLP类型的比赛。

任务路线:数据初识->数据处理->模型实践->模型优化

组队学习周期:12天

定位人群:能够熟练使用python,难度系数中

每个任务完成大概所需时间:2-3h

任务预览(2天)

1、下载数据,读取数据,观察数据

(提取5000条数据进行实践)

2、将训练集拆分为训练集和验证集

分享自己对数据以及赛题的理解和发现;

12 /PyTorch基础

课程设计:许辉 李奇峰

组队学习说明:通过学习pytorch的基本操作,最终完成手写数字的识别

任务路线:安装pytorch->设立图并计算->实现逻辑回归->构建多层神经网络->PyTorch实现L1,L2正则化以及Dropout->书写优化器代码->用PyTorch完成手写数字识别

学习周期:7天

定位人群:熟悉python的基础用法,难度系数中

任务完成所需时间:2-3h/天

任务预览(2天)

什么是Pytorch,为什么选择Pytroch?

Pytroch的安装

配置Python环境

准备Python管理器

通过命令行安装PyTorch

PyTorch基础概念

通用代码实现流程

设立计算图并自动计算

阅读梯度下降代码并书写体会

写一个简单的神经网络

13 /深度学习-nlp

课程设计:jepson

组队学习说明:学习自然语言处理理论,并且通过对某些数据集的文本分类任务不断优化来进行实践。

任务路线:特征提取—>特征选择—>文本表示—>传统机器学习算法跑模型—>LDA生成新特征—>深度学习算法跑模型

定位人群:有Python基础,基本框架的基础(例如TensorFlow、Keras和pyTorch等)!难度系数高

组队学习周期:18天

每个任务完成大概所需时间:3-4h

任务预览(2天)

1、IMDB数据集下载和探索(参考TensorFlow官方教程)

2、THUCNews数据集下载和探索(参考博客中的数据集部分和预处理部分)

3、学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

14 /编程

课程设计:光城 、LeoLRH

组队学习说明:利用自己所熟知的编程语言,具有一定基础,讨论在面试中可能出现的数据结构问题,一起学习重温经典数据结构

任务路线:数组->链表->栈->队列->递归->排序->二分查找->哈希表->字符串->二叉树->堆->图->回溯->分治->动态规划

组队学习周期:14天甚至往上大概16天左右(周末进行整体整理讨论)(每天任务时间具体看任务情况)

定位人群:有一门语言基础和算法基础的同学,难度系数高,小白慎入!!!

每个任务完成大概所需时间:平均每天学习时间在1个小时左右,晚上统一,半个小时进行集体讨论总结打卡。

任务预览(2天)

【数组】

实现一个支持动态扩容的数组

实现一个大小固定的有序数组,支持动态增删改操作

实现两个有序数组合并为一个有序数组

学习哈希表思想,并完成leetcode上的两数之和(1)及Happy Number(202)!(要求全部用哈希思想实现!)(选做)(注意:在第四天会进行继续学习)

练习:

Three Sum(求三数之和)

Majority Element(求众数)

Missing Positive(求缺失的第一个正数)

【链表】

实现单链表、循环链表、双向链表,支持增删操作

实现单链表反转

实现两个有序的链表合并为一个有序链表

实现求链表的中间结点

练习:

Linked List Cycle I(环形链表)

Merge k Sorted Lists(合并 k 个排序链表)

报名意向

我们会根据学习需求对Datawhale团队进行分工安排,不作为最终选择。

在这里投票:https://mp.weixin.qq.com/s/35v6Dl2jvrguDRG7eoY0cg

参与方式

image

图片: 伊小雪

排版: 无 多 李 方

上一篇下一篇

猜你喜欢

热点阅读