日常新闻能用来精准预测股市动向吗？这篇聚焦开放数据的访谈或能给你

2017-11-02 本文已影响165人阿里云云栖号

摘要：日常新闻标题能用来精准地预测股市动向吗？在本次聚焦开放数据栏目中，Jiahao谈论了作为一名教师在Kaggle开放数据分析平台上共享数据集的理由，迄今为止Kaggle用户实现的一些重大的基准预测，以及他对基于新闻标题实现交易算法的可行性的看法。

日常新闻标题能用来精准地预测股市动向吗？这是Jiahao针对本次访谈中提及的数据集所提出的挑战。Jiahao从公开信息源中创建了面向股市预测的日常新闻数据集，用于一门他所教授的关于深度学习与自然语言处理的课程，并在Kaggle社区中分享。

在本次聚焦开放数据栏目中，Jiahao谈论了作为一名教师在Kaggle开放数据分析平台上共享数据集的理由，迄今为止Kaggle用户实现的一些重大的基准预测，以及他对基于新闻标题实现交易算法的可行性的看法。作为一名有AI创业经验的研究者和工程师，Jiahao是Kaggle's Datasets等开源平台与社区的积极倡导者。因此，公开自己的数据集，和Kaggle上的数据科学家一起讨论新的想法和创意，对他来说是一个很自然的举动。

访谈开始

您能向我们简单介绍下自己和一些经历吗？

我是一名研究人员，同时也是一名专注于深度学习与人工智能的工程师。从牛津大学毕业后，我加入了欧洲最好的（当然，至少我是这么认为的）创业孵化器Entrepreneur First公司。在我就职于EF期间，我成立了自己第一家创业公司，尝试为社交媒体营销提供AI支持。在这之后，由于FinTech公司的首席数据科学家致力于为信贷风险提供AI解决方案，我选择加入了这家公司。创业的经历使我对最新学术研究在工业中的应用有了更深入的看法。这也是为什么我在开源平台和社区中格外活跃。最近，我就职于伦敦一家投资银行的金融创新实验室。所以，我现在对金融创新和数据非常感兴趣。

在社区贡献上，我活跃于Kaggle、Github、Stack Overflow等平台。同时，我也是JulyEdu的一名讲师，教授深度学习和一些很酷的应用。

深入数据

是什么促使您分享这份数据集的？

使用新闻订阅来预测股市动向的做法并不新奇。我的硕士论文也是基于这个想法的。当我身处学术机构时，获取免费且高质量的数据是很容易的。然而，对于现实中的企业来说，却很少有这种免费的午餐。大多数的新闻供应商并不想公开他们的数据源。恰恰相反，这些供应商向他们的高级用户按月收取昂贵的订阅费用。

我真的不希望一个奇妙的点子仅仅因为无力购买数据而被迫放弃。

Kaggle上面向股市预测的日常新闻数据集

我真的不希望一个奇妙的点子仅仅因为无力购买数据而被迫放弃。因此，我尝试在公共领域内寻找一些替代品。很幸运的是，我找到了Reddit，在这里，每天都有人在一些频道讨论并转发新闻。多亏了Reddit众包的力量，我们如今才能够（当然，使用Reddit的API也很需要技巧）通过免费合法的渠道获取这些昂贵的数据。

您是如何使用这份数据集向您的学生（包括Kaggle用户）讲解自然语言处理与深度学习方面知识的？

首先，这份数据集听起来很酷。一想到自己能够预测市场的动向（尽管使用简单算法来预测实际市场动向的做法并不现实），大家都会感到很激动。但是，从根本上来说，这也是一个典型的NLP问题：文本分类。新闻文本数据作为输入，而股票动向则视为分类标签。在一门名叫自然语言处理中的深度学习的课程中，我用这份数据集教我的学生通过使用深度学习算法，比如CNN，解决这类问题。

对于那些可能有兴趣使用开放数据平台进行教学或研究的教育工作者，您有没有什么建议？

当然有。在一个开放数据平台中，教育工作者不仅可以从他们的学生，而且还可以从整个社区中获得反馈。人们在一起讨论并分享时，新的想法会随之产生。我是开放数据的强烈拥护者。这也是我在Kaggle上共享自己数据的原因。

您是如何搜集并清洗数据的？

这需要些技巧，日后我会专门写一份教程。（别担心，我并没有进行非法爬取）

关于社区

谈一谈您目前最喜欢的用于数据分析的Kernel

Andrew Gelé很棒。他写了一份非常详尽的解决方案，对新手有很大帮助。

这个Kernel所使用的Andrew Gelé词袋模型N-GRAM系数

同样地，大部分kernel目前使用的都是非常基础的解决方案（换句话说，都是导入其他的解决方案来处理问题）。对于这个数据集，我知道简单的方法仍能取得很好的效果，但我希望大家能够使用更为复杂的理论来解决这个问题，比如，使用Facebook最近发布的FastText。我将开设一门课程，教授如何在这份数据集上应用FastText。

您使用新闻标题预测股市时，最有趣的体会是什么？

“不要做白日梦” :P

很多学生和朋友告诉我，他们的算法在这份数据集上效果不错，但在预测真实股市时却没有那么有用。当然，首先你需要一种科学的评估方法，比如交叉验证。否则，当你认为自己正在基于某个数据集调整算法时，你实际上已经陷入了过拟合的陷阱。其次，这份数据集仅包含了8年的日常股市数据，大约2500个数据点，这对于任何一个严谨的评估方法都是远远不够的。最后，但同样重要的是，在真实市场中，新闻数据仅仅代表着真实世界的一个维度，更好的解决方法是结合代表不同维度的多个数据源进行预测。

如果这份数据被您的学生或其他数据发烧友使用，你会怎么想？

做任何你想做的事！

对开放数据的思考

您分享的数据集正在改变着世界，在您看来，有哪些方式能够容易地获取类似的开放数据？

正如我前面提到的，有些数据集真的非常昂贵。当然，我从不支持那些泄露版权数据的人。这种做法完全是错的。我倾向于使用公开且合法的替代品来避开障碍。如果一个有前途的项目因为承担不起昂贵的数据集而终止，那将会是一种耻辱。所以，最好的情况是，高级用户付费使用高级数据集的同时，开放平台的贡献者也能提供相同质量的替代品。这仍是一个健康的生态系统，每个人的需求都得到满足。

如果您能够免费提供另外任何一种数据用于分析，您会选择什么数据？

令大家兴奋不已的数据。

文章原标题《Open Data Spotlight: Daily News for Stock Market Prediction | Jiahao Sun》，作者：Megan Risdal