AI Edge: GANs生成虚拟城市 | 视频版ImageNe
这个文集是自己之前有时间的时候,从每周订的邮件里翻译过来的,之后没时间了也就不翻了。
说起来非常惭愧,自己的文集里面就这个被关注的最多。但是最近研究方面又很紧张,所以很犹豫到底要不要继续弄下去。
所幸最近找朋友帮我分担,总算是勉强弄了一期看看。谢谢,小D!
大家有什么意见或者评论也可以尽量写下来吧。
视频版的 ImageNet(可能)到来!
…麻省理工学院的“Moments in Time”数据集由一百万段视频组成,每段视频长度为3秒…
大规模数据集的提供,在一定程度上推进了机器学习的最新发展。提供了在一个相当复杂的领域,来测试新科学进展的应力方法。麻省理工学院的新的'时间瞬间'的数据集或许正是我们需要视频理解的数据集。因为它是远大于其他可用的开源数据集(如activitynet,kinetics,UCF等等),也有一个相当广泛的初始标签(与各种不同的行动或活动关联的339个动词)。
视频分类基准:
研究人员还测试了新数据集的基线,一套基于使用残余网络,光流,甚至声音(通过使用soundnet网络)的系统。这些排名前五的基线的精度高达50%左右。这意味着在五个系统提供的选择至少有一个正确的。最好的方法是“关系网络”(TRN)。这个网络达到分数约53%,训练使用Inceptionv3 RGB帧图像分类体系。
下一步:
“数据集的未来版本将包括多标签的行为描述(即在3秒内发生多个动作的视频),关注的重点在动作间增加多样性人物,和短暂的时空转换,研究人员写道。
更多阅读: Moments in time dataset: one million videos for eventunderstanding (Arxiv)
模拟机器人不再丑得掉渣:Unity获得MuJoco插件:
经过尝试和测试,物理模拟器连接到一个高仿真的游戏引擎…
热衷于提高自己的AI系统外观的开发者们会很高兴知道,MuJoco已经发布了Unity引擎插件。开发者们可以直接将MuJoco模型应用给Unity,然后看着他们变得时髦起来。
“我们希望在这里更接近Mujoco工作流用例:由统一执行接收MuJoco的渲染,而实际的物理模拟和行为控制发生在用户的环境中运行MuJoco Pro,”作者写道。
阅读更多:MuJoCo Plugin and Unity Integration
谷歌自我审查,为排除避免偶然的种族主义产生:
……搜索公司禁止搜索特殊词汇,联想出现侮辱性分类的照片,来保护自己,免受攻击...
两年前,谷歌的谷歌照片应用程序显示了一个可怕的错误:搜索“大猩猩”会带来黑人的照片。引起了公众的哗然与强烈抗议。所以谷歌应用nerfed不会对搜索这些词语做出回应。两年后,尽管在AI和机器学习方面取得了巨大的进步,但什么也没有改变。
一位谷歌发言人证实,在2015事件后“大猩猩”被搜索和图像标签审查,而“黑猩猩”、“黑猩猩”和“猴子”今天也被封锁。有线电视新闻发言人在一封电子邮件中说图像标签技术,目前仍然不成熟,离完美还有很大的一段距离,并强调了谷歌照片的特点,用户可以报告错误。
感谢加密货币的土豪们,MIRI筹款远超2017目标:
…加密货币+AI研究,坐稳了,融——合!…
伯克利的机器智能研究所(Machine Intelligence Research Institute)在2017年募捐筹集了超过250万美元的资金,很大一部分资金与最近很火的加密货币有关。
“募集资金的66%是以加密货币捐赠的(主要是比特币和以太币)“MIRI写道。
城市漫游者使用生成式对抗网络(GANs)生成虚构城市:**
...研究人员发现,人工智能研究者已解决类似的问题,像那些有关解释性和透明度的问题...
研究人员使用生成式对抗网络(GAN)来生成各种各样的人造的、虚构的城市。该项目表明,“一个基本的、没有约束的GAN能够生成现实的城市模式,从而捕捉到全球各地城市形式的巨大差异,”他们写道。这并不是特别令人惊讶的事情,因为我们知道GANs通常能近似达到喂给它的数据分布。——尽管我怀疑数据集(30000张)可能有点太小,无法消除过拟合。
使用数据:
由德国航空航天中心编制的全球城市的足迹,能显示12米/像素分辨率的建筑用地。
问题:
AI和其他学科之间的项目,比如地理,提出的问题总是很有启发性。对于这个项目,研究人员留下一些开放的问题,包括:“如何以一种定量的、可解释的和直观的方法来评估城市规划分析中模型输出的质量?如何最大限度地理清、探索和控制城市空间地图重要特征,如潜在空间表现形式?如何从城市观测和模拟数据中学习?”等等。
更多:Modeling urbanization patterns with generativeadversarial networks (Arxiv).
亚马逊用GANS(生成对抗性网络)来模拟电商产品订单......居然看上去还真能用!
如果电子零售商没有足够客户的话,怎么办,那就开始合成吧...
亚马逊印度的机器学习团队的研究人员发布了关于eCommerce GAN (电商GAN)的详细信息,这是使用GAN来生成逼真的合成客户和客户订单数据的技术。它非常有用,因为它可以让你用可能用户订单组成的庞大组合空间来测试你的系统,理想情况下,还能更好地预测新产品与现有客户的匹配,反之亦然。
“放在电商网站上的订单只是所有合理订单中的一小部分,探索所有合理订单的空间可以为产品需求,客户偏好,价格估算,季节变化等提供重要见解。如果能够全面考虑到这些因素,那么将会直接或间接地影响收入和客户满意度。“研究人员写道。
eCommerce GAN(缩写为“ecGAN”)让研究人员能够创建一个合成的“密集且低维的电子商务订单”。同时,研究人员还创建了一个eCommerce-conditional-GAN (电商条件性GAN),可以“生成涉及特定产品的合理订单”。
结果:研究人员创建了真实客户订单和GAN生成订单的3D t-SNE图。这些图显示了两个订单之间的强相关性,并且只有很少的异常值,这表明ecGAN能够生成电子零售商实际看到的分布范围内的数据。
为了测试eCommerce-conditional-GAN,研究人员想看看系统是否可以有条件地生成和实际订单具有类似客户<->产品配置的订单 ——结果成功了。这可能听起来没什么,但对于亚马逊来说,这是一个重要的事情:这样它就可以模拟客户产品组合的“长尾”了,并且随着更好地预测这些关系,理论上就可以更好地优化供应链/即时库存/营销活动等等了。
数据:研究人员说,他们“使用了服装类产品进行模型训练和评估,在电商公司最近一年随机选择500万个订单来训练模型。” 请注意,他们没有指定这些数据来自哪里,尽管它似乎来源于亚马逊,因为这是研究人员在这个项目中工作的地方。
阅读更多:eCommerceGAN: A Generative Adversarial Network for eCommerce (Arxiv)
为什么AI研究需要大量的计算来进步:
...未来的AI研究将涉及到大批量的计算,而现在,则是大量的调参...
AI研究人员在一定时间内可运行的实验数量是有效的。这是因为基于深度学习的人工智能主要是一门经验科学,所以在没有强大的理论保证的情况下,研究人员需要严格测试算法来适当调试和开发它们。
这一事实推动了最近AI算法的大规模分布式训练的创新,最初是为了传统的分类任务,就像下面的两个计算机视觉例子:
2017年7月:Facebook使用256个GPU在〜1小时内训练ImageNet模型。
2017年11月:Preferred Networks使用1024个NVIDIA P100 GPU在大约15分钟内训练ImageNet。
现在,随着人工智能研究日益专注于开发可以世界范围内运行的人工智能系统,同样的现象也发生在强化学习上,从DeepMind(Ape-X,Gorilla等)到OpenAI(进化策略) ),研究人员尽量减少运行强化学习实验所需的时间。
自deepsense.ai、Intel和波兰科学院的最新研究,显示了如何使用ADAM优化器和2048大批量来训练Batch Asynchronous Advantage Actor-Critic算法,以让系统学会在几分钟内玩Atari游戏; 在很多情况下,系统只需20分钟左右的时间就能攻略比如Breakout,Boxing,Seaquest,和其他一些游戏。
他们通过分布式系统来(例如,参数调查,在不同代理间进行时间对齐的技巧等)扩大算法规模实现这一点,这使得系统可以跨64个训练器运行算法,这其中包括768个不同的CPU核。
接下来:PPO:作者指出由OpenAI开发的强化学习算法PPO,可能会是大规模分布式强化学习的“未来研究前景”。
阅读更多: Distributed Deep Reinforcement Learning: learn how to play Atari games in 21 minutes.
Google员工打假:批评利用神经网络来检测性取向的研究:
“AI是一种通用技术,可以自动执行许多任务,包括一些乍看不容易解决的问题”
去年秋天,斯坦福大学的研究人员在Arxiv发表了一篇论文,声称他们设计的基于神经网络的图像分类系统可以比人类更准确地检测出性取向。这项研究被批评为喧哗取宠,并在报刊上被广泛报道。
目前,该论文已被学术期刊 - “人格与社会心理学杂志”接受。这似乎引起了谷歌研究人员玛 Margaret Mitchell,Blaise Aguera Arcas和普林斯顿大学教授 Alex Todorov对该研究的批判性看法。
这项研究最初依赖于由美国交友网站上的公共档案,由35,326个图像组成的数据集。你可以通过创建来自真实标记数据的复合“平均”图像(就是把所有此类图片投影到隐空间,然后取平均,之后再还原。)来了解这里呈现的照片类型 - 当你这样做时,你会注意到一些显着的差异:“平均”的异性恋男性脸上没有眼镜,而同性恋面孔有,同样的,“平均”异性恋女性的脸上有眼影,而女同性恋却没有。
调查:“算法检测能力可能与面部结构无关,而是与因为梳理,表现和生活方式呈现的模式有关?"谷歌和普林斯顿的研究人员想。
为了分析这个问题,他们用亚马逊机械土耳其人的调查了8000个美国人,问了他们77个是/否的问题,从性倾向,到是否有胡子,戴眼镜等等。
调查的结果似乎大致跟我们从数据集中提取的“平均”图像一致,这意味着比起搭建一个复杂的神经网络,研究人员可以只通过建立了一个简单的分类器,根据你是否化妆或戴眼镜来判断你是直是弯。
为了说明研究中存在的问题,Google员工通过询问一系列是/否的问题,而没有任何视觉信息复杂,就可以达到类似的分类准确性。
建议研究标题:鉴于这种批评,对于这篇论文来说,一个更好的标题可能是深度神经网络比人类更准确地预测各种服装和化妆品之间,以及与任意标签之间的关系。当然,我们现在已经了解了,是吧?
更多:Do algorithms reveal sexual orientation or just expose ourstereotypes?