伦敦帝国理工学院机器学习和自然语言处理著名学者Marek Rei教授从2016年起,每年都会对ML&NLP相关的会议论文进行统计和分析,并一年一度发表分析结果,目前已成为该领域权威性的报告内容。
近期,Marek Rei再次发布2019年度机器学习和自然语言处理(ML&NLP)领域的年度统计。 从其分析中,我们可以清晰地看到在ML&NLP领域到底哪家单位最狂(非谷歌莫属),哪些单位实例雄厚,哪位学者研究突飞猛进,以及中美之间实力差距如何巨大。
根据Marek Rei教授的报告结果,我们一一进行分析!
注:报告统计数据来源于2019年机器学习和NLP相关的会议和期刊,其中统计范围包括ACL,EMNLP,NAACL,EACL,COLING,TACL,CL,CoNLL,NeurIPS,ICML,ICLR,AAAI。
1、NeurIPS指数式增长
几乎所有的会议都在2019年破了纪录,尤其是NeurIPS,曾指数上升趋势,根据数据显示其规模是最大的,而且领先AAAI接近300篇论文。当然,由于COLING和EACL在2019年没有举办,所以没有统计其数据。
2、谷歌发文最多,清北排名前十
2019年论文发表数量最多的机构是哪个呢?
其中谷歌顺利占据了领先地位,在各个领域都发表了大量的论文。例如,在ICML上,谷歌发表的论文数量是紧随其后的MIT的两倍有余。
值得一提的是,Marek之前几年的统计中曾将DeepMind的论文也囊括在谷歌发表的论文之中,而在这一次则将DeepMind的论文发表情况单独列出。 微软和CMU也发表了大量的研究成果,在所有会议上发表的论文数总量分别排在第二、第三。
而清华大学、北京大学,则是中国进入各大会议论文数总量前十的两所高校,分别排在第七、第九,这也说明了近年来中国高校在学术论文上的影响力日益攀升。
3、八年争夺,微软、CMU总量第一,谷歌上升迅猛
接下来我们来看2012年至2019年的总体数据。
虽然在2019年由谷歌占据主导地位,然而CMU和微软在2012年至2019年整场“马拉松式”的拉锯战中遥遥领先。
并且值得一提的是,CMU和微软在2012年至2019年的论文发表数量完全相同,都为1215篇论文。 排在两者其后的,是谷歌、斯坦福大学、MIT、IBM、伯克利大学、清华大学和北京大学。
如果我们再看下时间分段数据,我们会发现谷歌上升势头迅猛。虽然在2012年至2016年,谷歌发表的论文总数要比CMU和微软的少得多,但是从2018年开始,它的论文发表数就开始远超包括CMU和微软在内的其他所有机构。
而所有排在前列的机构都呈上升趋势,在2019年发表的论文数量都远比此前发表的论文数量要多。
其中,中国机构表现最突出的清华大学,虽然论文发表数量在前几年中都一直较大地落后于国外机构,但在所有机构总体上升的趋势下,以高于平均上升趋势的幅度,终于在2019年拿下第七的排名,实属不易!
4、Sergey年产33篇论文,刘知远25篇位列华人第一
就个人作者而言,伯克利的Sergey Levine在2019年总共发表了33篇论文,其中在NeurIPS上12篇,ICML上6篇,ICLR上15篇。
其他比较高产的作者分别是:卡内基·梅隆的Neubig、蒙特利尔的Yoshua Bengio。清华大学的刘知远副教授以25篇排名第四(华人第一),其次是微软亚研院秦涛研究员(24篇)以及其同事刘铁岩(23篇)。
此外,北大的孙栩、加州大学圣塔芭芭拉分校的王威廉、腾讯AI Lab的Shuming Shi也不分上下,分别发表了21、21、20篇论文,排名前十以内。
我们还注意到统计中包括了西湖大学的张岳(18篇)、微软的高剑峰(18篇)、Caiming Xiong(18篇)、哈工大刘挺(17篇)、北大赵东岩(18篇)等。
5、八年期,Yoshua Bengio晋级第一,周明、张岳、刘挺华人前三
将2012~2019年的数据作为一个整体来看,蒙特利尔的Yoshua Bengio已经取代了DeepMind的Chris Dyer成为最高产的作者。
位列第三的微软周明,第四的西湖大学张岳、华盛顿大学的 Noah A. Smith 以及位列第六的哈尔滨工业大学的刘挺有超过90篇论文产出。
这里需要强调,由于中国学者英文重名现象比较严重,为了统计方便,列表中删除了Yang Liu这一作者,因为有多人用此名字对论文署名,导致难以分辨。这导致清华大学计算机系的刘洋教授没有被统计排名。
以“年”为节点进行观察,Sergey Levine、Graham Neubig、Yoshua Bengio各自发表的文章的数量都比前几年要多,而且这几个人也都超过了Chris Dyer在2016年创下的记录。
另外,值得注意的是西湖大学张岳的论文发表在2015、2016年达到最高产,刘挺则是在2014年发表最多。
6、以一作之名,平均两个月可发一篇顶会论文
论文的第一作者通常是论文初稿的写作人,实验设计的主要参与者以及实验的主要执行者。一般能够在第一作者署名意味着在论文里面的贡献比较大。下面让我们看看论文第一作者的情况。
Gabriele Farina是卡内基梅陇四年级的博士生,他以第一作者的身份发表论文6篇,其中有3篇被NeurIPS收录。
威斯康星大学的Diakonikolas,杜克大学的Hanrui Zhang、新加坡国立大学的Rui Zhang以及清华大学的武楚涵、北京大学的杨鹏程、普林斯顿的Sanjeev Arora、微软的Zeyuan Allen-Zhu、IBM的Mikhail Yurochkin也都有5篇论文是第一作者的署名。.
其中清华大学的武楚涵三篇文章发在了EMNLP上,北京大学的杨鹏程有五篇文章发表在了ACL上面。
纵观第一作者的论文,其中微软的Zeyuan Allen-Zhu、香侬科技李纪为、剑桥的Ivan Vulić和Ryan Co、亚马逊的Young-Bum Kim以及普林斯顿的Sanjeev Arora发表的论文最全面,涉及的顶会最多。
其中李纪为在七个会议上发表了论文,数量颇丰位列第一。
7、中美差距,何止一丁点!
分析2019年各国家和地区的论文发表数量,这还是首次。不可否认地,下面这张统计图展示了美国在AI领域“力压群山”的主导地位,不过中国、英国、德国和加拿大在该领域所发挥的影响力也不容小觑。
单独从各大会议会议上来看,中国在AAAI上的论文发表数量甚至与美国持平,可见中国研究者在AAAI上扮演着举足轻重的角色。
另外中国在NeurIPS、EMNLP、ACL等会议上的表现也非常出色,虽然可能不及在AI领域本就拥有先天优势的美国,但是遥遥领先于其他国家和地区。
下图展示了2012年至2019年各国家和地区的论文发表总数,整体排名和差距情况与2019年各国家和地区的发表论文数量差不多。
这些年来,美国的论文发表数量都一直远超其他国家和地区,并且现在还在加速拉大这一差距。而中国则在拼尽全力与美国匹敌,如今也以不断增大的幅度领先于美国以外的其他国家和地区。而英国虽然在论文发表数量以及增长幅度上不及美国和中国,也还是牢牢锁住了第三的位置。
美国—企业主导
由于美国2019年的论文发表数量在所有国家和地区中占据了遥遥领先的主导地位,因而以下这张美国2019年论文发表数量统计图整体情况与各大机构2019年论文发表数量统计图差不多,谷歌依旧遥遥领先,而微软和CMU依旧排在第二、第三。
中国—高校领先
在中国,高校是论文发表的中坚力量,排在前十的有九所高校,仅有一家企业。
清华大学和北京大学分别锁住了第一、第二的宝座,二者在国际舞台上的表现同样不菲,是中国进入全球各机构论文发表排行榜前十仅有的两所高校,近年来对于AI领域的整体发展做出了较大的贡献和推动作用。
中国科学院大学、中国科学院、南京大学是论文发表数量排在第三至第五的高校,三所高校在中国乃至全球AI领域扮演的角色同样出类拔萃,不仅有该领域的领军人物坐镇,如周志华等,还有为AI领域培养了一大批人才,如中科院计算所等机构。
而企业同样是中国论文发表的一只辅助力量,其中Baidu、阿里巴巴是其中表现比较出色的企业,分别成立了科研性的实验室,近年来也发表了大量的科研论文。
英国—DeepMind的传奇
在英国, 谷歌麾下的DeepMind遥遥领先,其后是剑桥大学、牛津大学、爱丁堡大学、伦敦大学学院、帝国理工大学和阿兰图灵机构。
值得注意的是,阿兰图灵机构由剑桥、牛津、爱丁堡、华威和伦敦大学学院五所大学领导,所有该机构的论文发表数据与其他几所大学有一定交叉,因此具体数据比较模糊。 论文发表数量排在前七的机构中,剑桥大学和爱丁堡大学主要聚焦于NLP领域,而其他机构则主要专注于ML领域。
德国—NLP一家独大
在德国,达姆施塔特工业大学是论文发表数量最多的机构,尤其是在NLP领域,论文发表数量占德国论文发表总数的2/3。罗伯特·博世有限公司总体论文发表数量排在第二,但ML领域的论文发表数量却是德国机构中最多的。
随后是萨尔大学、慕尼黑大学、图宾根大学、慕尼黑工业大学、马克斯普朗克智能系统研究所,分别排在第三至第第七的位置。
加拿大—三足鼎立
在加拿大,多伦多大学的论文发表数量是各机构中最出类拔萃的,排在第一,随后是蒙特利尔大学、Vector人工智能研究院,分别排第二、第三。
滑铁卢大学是聚焦于NLP领域研究的唯一一所机构,而其他机构的论文大多数都发表在ML的相关会议上。
8、国际合作的多元化,中国还有待提升
Marek也做了另外一项分析,即根据论文研究课题进行相似性分析,得出一些有意思的结论:
首先是机构之间的相似性,从下图可以看出,来自中国的大学主要集中在图的上部分,美国大学主要在图的右侧,欧洲则在左侧,企业在中间。因此可以看出研究课题即是非常具有区域性的,高校之间的相互合作受地域影响很大,而企业则相对就比较灵活。
相似性也可以应用到作者的分析上,下图的紧密度反映了研究者之间研究课题的相似性和合作频率。从图中可以看出秦涛(Tao Qin)和刘铁岩(Tie-Yan Liu)很近,这很容易理解,他们都在微软亚洲研究院工作。
也可以将相似性分析应用到国家和地区。不过鉴于每个国家都会有许多不同的主题,下面这个图可能更能代表它们的合作频率。中国居于右下角,距离较近的是新加坡、澳大利亚、日本等,但距离其他国家和地区就比较远了,例如与台湾、韩国、法国等的合作就不是很紧密。而美国和英国在国际合作上相对比较多元化。
9、因崔斯汀的统计数据
最后,让我们再来看一些有趣的数据:
1)提及GitHub(就是指有代码开放)的论文占比:ACL有70 %的论文、EMNLP有69%,的论文、NAACL有68%的论文、ICLR有56%的论文、NeurIPS有46%的论文、ICML有45%的论文、AAAI有31%的论文提及GitHub。如此来看,NLP领域的论文似乎大多都免费开放了论文代码。
2)单篇论文作者最多有24位,论文是《CoSQL: A Conversational Text-to-SQL Challenge Towards Cross-Domain Natural Language Interfaces to Databases》
3)标题最长的论文:《What if We Simply Swap the Two Text Fragments? A Straightforward yet Effective Way to Test the Robustness of Methods to Confounding Signals in Nature Language Inference Tasks》
4)标题最短的论文:《Graph U-Nets》
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。