中国人工智能大赛 · 语言与知识技术竞赛(团体赛全国第6名/12

2020-10-16  本文已影响0人  yousa_

介绍一下项目(Why、What、How)

对于这个项目,传统的方法是怎么样的?

尝试了什么方法(失败的)?

尝试了什么方法(成功的)?

为什么要加入对抗训练?

在数据增强上用了哪些方法?

stacking策略是什么?怎么做的?

遇到过哪些问题,怎么解决的?

你在这个项目中遇到的印象最深刻的问题是什么?

你认为为什么BERT能达到这么好的效果?

BERT的mask是如何实现的?

BERT的缺点

BERT预训练前期怎么处理

BERT具体任务fine-tune

Self-attention 原理

a = tf.matmul(q,k,transpose_b=True)
b = tf.multiply(a ,1/math.sqrt(float(size_per_head)))
c = tf.nn.softmax(b)
d = tf.matmul(c,v)

简单谈一下BERT的三个嵌入层

谈一下BERT的参数量

讲一下BERT和Transformer的输入

讲一下Transformer,attention,然后attention与self-attention的区别

elmo、GPT、bert三者之间有什么区别?

关于Transformer

Transformer比LSTM好在哪里?

介绍一下BERT、RoBERTa、ERNIE、ERNIE2.0、BERT-large的区别

讲讲xgboost和GBDT

为什么集成学习基分类器要用决策树?

关于GBDT,你调整了哪些参数?

Xgboost、GBDT、RF区别和联系

你能想到的还可以改进的一些方面

项目总结与思考

谈谈你对最新的模型如GPT1.0 2.0 3.0 BERT NEZHA XLNET ERNIE ElMO Roberta等的认识


在Mask的过程中为什么要15% - (10%,10%,80%)

Transformer的Decoder

Transformer的self-attention为什么要对点积进行缩放?

Transformer的并行体现在哪里

讲讲Transformer的残差

GBDT如何防止过拟合?

除了stacking,你觉得在集成上还有哪些方法?

上一篇 下一篇

猜你喜欢

热点阅读