智能投研-数据应用领域

2020-04-02  本文已影响0人  kekefund

智能投研是指基于人工智能、大数据、云计算等现代科技手段,获取、处理、分析海量相关数据,生成投资观点和报告。 其中关键的人工智能技术包括自然语言处理(NLP,包括自然语言理解NLU、自然语言生成NLG等)、知识图谱等,人工智能提供算法和工具,大数据提供素材,云计算则提供算力。

与智能投顾的侧重点不同,智能投研的主要目的是深层次改造投资研究流程,提升资产管理能力和风险评估能力,创造AUM(资产管理规模)高质量增长。

智能投研产业链--数据获取与数据加工

数据源:

(1)金融数据。金融行业已经存在大量标准化的数据,包括行情数据、公司财务数据、公司公告、交易数据、宏观数据、行业数据、券商研报等。

(2)爬虫数据。采集来自互联网的数据,主要有地方政府网站、监管部门网站、媒体网站、社交网络等。

(3)另类数据,主要有舆情数据、社交数据和通过智能设备采集的数据,包括社交网络的付费API数据、卫星图片、天气数据等,还有通过移动终端或物联网设备采集的各种数据。

数据源的特点

1. 数据全面:金融数据+另类数据+爬虫数据。多种数据交叉验证,能创造更多价值。

2. 获取非结构化数据:一般的数据源都是结构化数据,对于如PDF、图片等非结构化数据(IPO招股书、企业年报、定增公告等),也可以解析转结构化数据。

3. 实时性:数据源可以24小时不间断提供数据,保证数据及时、有效。

数据提供商

image.png

国内以wind为头部玩家,追随者虽众,但差距比较大。

智能投研工具型&解决方案型公司

通联数据-萝卜投研网页版&APP

萝卜投研适用于机构和个人投资者,侧重对股票、研报、新闻公告、行业数据等的展示与分析,主要包含以下版块:

指标库:中国宏观、行业经济、国际宏观、特殊数据、市场行情、公司数据。

宏观经济:国民经济核算、工业、景气指数、固定资产投资、财政、金融、汇率、对外经济、国内贸易、就业与工资、人民生活、人口与资源、科教体卫、证券市场。

行业经济:农林牧渔、能源、化工、钢铁、有色金属、建材、汽车、机械设备、电子电器、信息服务、食品饮料、纺织服装、轻工制造、医药生物、公用事业、交通运输、房地产及建筑业、旅游酒店、文体教育与工艺品、批发零售业、行业综合。

市场统计:货币市场、国债市场、外汇市场、市场情绪、A-H股、股指期货。

基于宏观基本面数据和市场情绪指标, 通联数据开发了A股大盘指数预测模型,对当前时期未来一个月左右的沪深300指数涨跌进行预测。

image.png image.png

文因互联

文因互联基于知识图谱和自然语言处理技术,为金融机构提供业务流程自动化和智能化解决方案。

  1. 智能监管引擎:自动化解析公众公司信息披露文档和网络舆论,提供合规、市场监控、内控与风险管理等应用。
  2. 银行智能营运分析引擎:自动化分析财务报表、外源文档、行内文档,提高银行运营决策、产品设计、营销推广、风险管理效率。
  3. 金融数据生产引擎:提供智能金融的通用底层数据和工具,实现秒级金融文本挖掘、数据推送。
  1. 知识图谱:将不同数据源的结构化结果,通过实体关联构建统一的“实体-关系”图结构模型,提供统一的知识库与知识图谱,支持跨领域数据链接与发现。
  2. 数据结构化:将海量异构文本进行结构化处理,包括文本、复杂的表格与图片,并通过自然语言技术进一步处理,自动检测数据一致性,处理无效与缺失值。
  3. 语义推理:结合“实体-关系”的结构化图谱与具体场景的业务逻辑,对异构信息进行逻辑检验,结合相关性分析与情感分析,推理出可能的隐含信息。
  4. 自然语言查询:自然语言查询支持用汉语提问,获取数据库中的信息。底层可以接入各种数据:报表平台、CRM等,助力管理,营销及运营效率提升。

庖丁科技

庖丁科技是全球领先的专注于金融语义理解的人工智能公司,致力于将国际最前沿的深度学习(Deep Learning)、自然语言处理(Natural Language Processing)、富格式文档(Richly Formatted Documents)解析等技术与金融各垂直领域专业知识进行深度融合,帮助传统金融行业打造新一代核心竞争力。

达观数据

达观数据是一家专注于文本智能处理技术的国家高新技术企业,获得2018年度中国人工智能领域最高奖项 “吴文俊人工智能科技奖”,也是本年度上海市唯一获奖企业。达观数据利用先进的自然语言理解、自然语言生成、知识图谱等技术,为大型企业和政府客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工完成业务流程自动化,大幅度提高企业效率。

image.png

熵简科技:智能投研平台

结合另类数据、NLP、机器学习等多项自主研发的技术与产品,打造高效能的新一代投研一体化辅助决策平台。围绕流程管理和知识管理两大模块,提供知识图谱、智能研报、聚合搜索、舆情监控等16余项应用插件,依托高并发、低耦合的系统架构,实现用户需求的快速响应。

image.png

熵简科技内部已有自建、成熟的数据库。其自建的类别主要有三类:

一、另类数据库(ADB):包括电商、招聘、点评、招投标、视频等12个大数据库,均是来源于非付费的公开信息采集;

二、行业经济数据库(EDB):对行业指标相关的数据进行采集和整理,进而形成的行业经济数据库,如汽车领域中不仅包含有汽协、乘联会披露的车型、销量,也包含易车网的折扣率等深度数据;

三、研究舆情数据库(RDB):即通过对券商研报、公司公告、企业智库、微博舆情、公众号文章等进行聚合形成的研究报告数据库。

对于数据源的监管制定了“合规三维度”:即数据源非付费性质、不涉及个人隐私、不涉及政治敏感话题。

总结

智能投研解决方案型公司和数据采集型公司的业务边界越来越模糊,两类公司在发展过程向对方领域都有渗透,都在打造从数据采集->数据存储->数据加工->数据工具集->解决方案的整套流程,形成自有的业务生态圈。

上一篇下一篇

猜你喜欢

热点阅读