当前位置: 首页 > 买入攻略 >算法架构师披露今日头条的神秘算法和未来思路

算法架构师披露今日头条的神秘算法和未来思路

2023-05-10 14:56:27


今日头条算法架构师曹欢欢在财新年会“前沿科技重构商业格局”分论坛上做“人工智能时代的信息分发革命”的主旨演讲。


【“一条财经”(微信ID:ytcj123)提要

50%是非常重要的分水岭。近一半分发量由机器控制的预测已经成为现实。机器正在接管人类的权利,控制内容分发,这是很重要的事件。


古代的时候,信息分发是小圈子的事,是知识分子、精英群体的事,但是现在这些技术的出现,把大众卷入了这个行业,使得这个行业的影响力变得无以复加的大。


2012年是一个分水岭,智能算法大踏步进入信息分发并且改变了这个行业。今日头条是第一个吃螃蟹的人,是这一波变革的先驱。



大数据、云计算、人工智能、物联网等前沿科技正在引领着一场技术革命。在科技的驱动下,各行各业都在进行着颠覆式的创新和重构。这次技术革命,对生活带来哪些颠覆?又将引发怎样的商业变革?形成怎样的商业形态?企业将如何拥抱技术革新?


122日,由今日头条和财新传媒联合主办财新年会“前沿科技重构商业格局”分论坛在北京国贸大酒店举行。中国互联网协会法治工作委员会主任、工信部政策法规司原副司长李国斌,上海交大致远学院常务副院长汪小帆,上海交大媒体与设计学院m-lab主任、资深媒体观察家魏武挥,今日头条算法架构师曹欢欢,国双科技助理总裁、司法数据事业部经理石鹏,摩拜单车创始人胡玮炜,云知声CEO黄伟等齐聚论坛,对上述问题发表了自己的看法并进行了讨论。


今日头条算法架构师曹欢欢在论坛上做了“人工智能时代的信息分发革命”的主旨演讲,从历史回顾——当下解读——未来构想三个方面,分享了人工智能在信息分发领域的应用。以下为曹欢欢演讲的整理:




 

这两年有一个很火的概念,就是“人工智能”。人工智能上世纪五六十年代就有人提出来,为什么在两年这么火呢?


人工智能的发展经历过很多次波折,有高潮有低谷,最近两年,相关技术得到发展,尤其是“深度学习”的进展,使得人工智能技术在很多应用领域产生了突破,很多原来人们设想的愿景正在变为现实,对很多行业产生了实实在在的影响。


今日头条实际上是在信息分发的行业,今天就我的了解讲一讲人工智能时代信息分发行业的变革,或者说大一点叫做革命。


丘吉尔(WinstonChurchill)曾经说过,我们对过去能看得有多深,就对未来能看得有多远(The farther backward you can look, the farther forwardyou are likely to see)。我们先看看信息分发行业在过去是什么样子的,先来回顾一下这个行业的历史。


信息分发权利的转移,从人到机器

 

这个行业可以说非常古老,人类自从进入文明社会就有了信息分发的需要。最早追溯到公元前2000年以前,那时候多数地方文字都没有,信息分发主要靠嘴,口口相传。比如传唱史诗,一些吟游诗人到处去传唱。


公元前1000年左右我们产生了文字(如中国甲骨文,这是比较公认比较成熟的文字,古埃及和两河流域的文字更早),这是信息分发的一次飞跃,因为文字可以把内容记录下来了,传播的过程中就能保证它的精确性


公元前200年左右出现了报纸(一般认为中国西汉初年的《邸报》是世界上最早的报纸),这是信息分发比较大的飞跃。因为报纸有周期性,非常高频的,而书籍无法确定什么时候出,因为古代出版技术没有那么发达。

20世纪,信息分发行业又经历很多的技术变革,产生很多到现在还有巨大影响力的技术,比如说广播、电视、互联网,互联网诞生于20世纪60年代末(1969年阿帕网的诞生),这些强大的工具对信息分发行业产生了翻天覆地的改变。


古代的时候,信息分发是小圈子的事,是知识分子、精英群体的事,但是现在这些技术的出现,把大众卷入了这个行业,使得这个行业的影响力变得无以复加的大


回顾信息分发行业光辉历史的时候我们发现,从某一个角度上看,历史上所有的变革其实是同质的,但过去的或许没有近几年来人工智能这一波革命影响深刻。


为什么这么说?过去信息分发形式的变革,无论是从口口相传变到文字书写,再变到报纸等出版物,再到有网络有网站,虽然媒介形式不断的演进,信息分发变得更加的强大,但信息分发的权利一直没有转移,这个权利还是在人的手里往往是一些非常资深的从业者,他们非常有经验,能判断什么是好的内容,控制内容的分发。但是在机器智能算法时代,机器慢慢辅助信息分发甚至开始担当主角,从这个角度来讲,过去所有变革好像真不如最近这波变革对信息分发行业影响大。


智能算法、人工智能的影响甚至不止是分发,近两年出现一些写作机器人,在创作方面产生一些影响。


我们说可能有人认为比较主观的,可以看看外界的客观评价。这是上半年传播非常广的报道,第三方监测媒体基于上半年数据,预测到下半年整个内容分发市场将近一半分发量由机器控制,这是具有里程碑意义的数据。我们经常说量变引起质变,50%是非常重要的分水岭。超过50%以后,它已经成为决定性的因素,机器正在接管人类的权利,控制内容分发,这是很重要的事件根据我们的数据观测,这个预测已经成为现实。


今日头条是2012年创立的,四年之后算法时代正式来临。这个报道提到了今日头条,毫不谦虚地说,这也是一个事实,机器影响内容分发这一波,今日头条是第一个吃螃蟹的人,是这一波变革的先驱。


现在很多人都知道了这是一个趋势,所以市场竞争非常激烈,腾讯、百度、阿里这些巨头纷纷投入这个行业。未来竞争格局怎么演化呢?客观地说实没有人能够定论,作为今日头条的一员,我肯定有信心。如果未来有一天人们回顾历史,今日头条这个名字是无法绕过的我们在历史上会留下应有的一页。


互联网时代几种信息分发形式的优劣比较

 

刚才讲到信息分发行业在人类历史上经历那么多的变迁,我们再聚焦一下过去十几年,互联网时代最主要的几种内容分发或者叫做信息分发的形式。


最早的形式其实是以国外的雅虎,国内四大门户代表的门户网站,它有点像电子报纸,它的展现形式通过PC浏览网页、编辑内容,内容掌控还是传统编辑模式,早期门户网站最有权势的人是主编。而现在,且不说今日头条这种基于内容算法做分发的平台,其实很多传统的平台现在也在做算法推荐的事情。分发权利转移到做算法的这群人手里。


Web2.0时代一个很大变革,就是社交媒体和社交网络的兴起,有了去中心化的方式。在门户时代,往往主编就决定了这个网站应该放什么内容?但是这样很难满足千人千面用户个性化的需求,社交网络、社交媒体的崛起满足了这方面的需求,当然它也有一些问题。2012年是一个分水岭,智能算法大踏步进入信息分发并且改变了这个行业。


为什么智能算法能弥补之前形式的缺点?我们看一下门户的缺点和优点——门户优点很容易理解,有很多资深人士控制内容展示,质量相对有保障,但是分发效率比较低,人的工作效率和机器比是比较低的,不可能要求信息出来之后,他很快完成判断和分发。另外就是版面有限,每天最多放几百条更新内容,最多上千条,如果太多,只能放在很深很深的页面层级,用户很难看到,这个东西没有流量,如果内容触达不到用户,生产出来也是没有意义,性价比太低。


社交媒体和社交网络一定程度上弥补了门户的缺陷,可以做到内容的个性化分发。如果你在微博订阅了不同的大V,或者微博里关注了不同的人,每个人圈子不一样,你看到内容也是千人千面的,但它也有一个问题就是信噪比(SNRS/NSIGNAL-NOISE RATIO)也比较低。你关注一个大号未必每篇文章都很喜欢,你不关心他们晒娃,或者去哪玩了,你可能关心他生活的某一面,这个问题朋友圈解决得不是很好。这时候轮到智能算法出场了,它既能解决个性化问题,分发效率又很高,机器算得非常快的,也可以解决信噪比低的问题,它可以利用一切可以利用的信息,智能算法不排斥社交网络。今日头条一直探索更好的用户之间的社交关系,这个社交关系对于捕捉兴趣爱好偏好非常有用,它的特点在于一切能用的信息都拿来用,它是一个超级专家,分析你的偏好,给推荐你感兴趣的内容。


智能算法的问题在哪?或者应该叫壁垒在哪智能算法的壁垒在于数据,它需要很多数据这个模型才能变得很聪明,它决定了这个行业门槛比较高。今日头条赶上了互联网的红利,迅速积累了很多的用户。很多传统媒体甚至都找过我,能不能也做一个类似的?我说抱歉,这个事真的不能复制,你现在要去做数据劣势很明显,很难短时间内有相同的效果。


中国有一句老话叫做一枝独秀不是春,除了今日头条,这个行业其他的伙伴或者竞争对手怎么做的?他们也在拥抱智能算法,拥抱人工智能。大家看到,无论是百度还是UC,只要跟信息分发沾边的工具都会做算法推荐,这已成为行业的大势。


我们看一下国外,TwitterFacebook这两年股价变动的趋势,很有意思。我们看两个新闻,一个是比较老的新闻,2013年的, Facebook2013年就开始尝试用算法排序,而不止是用时间帮助你整理数据流。Twitter比较保守,在2016年尝试用算法改变时间流,原来一直严格按照时间排序的。对应这两个事情看两个公司股价的变化,一个公司对智能算法拥抱的程度,投入到技术变革中紧迫性和公司股价走势是有一定关系的


智能算法的三个维度和未来趋势

 

前面介绍了很多背景,接下来分享一点干货:


第一个维度,智能算法去做分发核心逻辑是什么?因为今天时间所限,也不是技术论坛,我尽量减少技术细节的介绍,介绍基本的逻辑。智能算法进行信息分发的基本逻辑就是说需要一个打分器,输入用户的兴趣标签。你是对数码感兴趣还是科技?你是对哪一款数码相机感兴趣?你喜欢奔驰的车还是宝马得车?这是兴趣标签。


第二个情景维度,也就是环境特征,你是在工作的地方还是在家?是休息日还是工作日?是早晨还是晚上?还是去了一个你从来没有去过的地方?你可能在出差还是旅游?这对于找到你当时兴趣都是有帮助的,这一类我们归为情景维度。


第三个维度,也是打分器的输入,最重要是内容维度,推荐给你的内容候选,讲的是什么?主题是什么?热度怎么样?哪些人群比较受欢迎?是财新网发的还是21世纪经济报道发的?这些都是有用的。这三种数据进去,最后输出一个数,你喜欢这个内容的概率。这个最简单的函数,工程非常复杂,但逻辑可以简单用一个函数概括,有这样一个函数,任何人来了我们知道他的情景信息,可以把几百万的内容库看一遍,哪些分比较高,分高的就给你,机器逻辑非常简单。


我们有这样一个打分器输入怎么来,人的内容怎么来?我们对一个内容很了解他讲得是什么,这个人经常看这类的东西这个标签就有,你老给他推荐他不看,这个分就是负分,这是快速的工程实现,稳定性,数据积累的速度。


这个基石是内容标签怎么来?怎么用人工算法帮助我们提取内容的标签,分成文本内容的分析和图片的分析。文本内容也是函数,你给它一串字符,字符串来了之后第一个提取关键词,第二个把它分类,分类在大的内容推荐引擎里面,内容分类很复杂,可能有几百个,上千个,一层一层的,顶层可能是科技、财经,在财经里面有股票、宏观经济,在股票里面有美股、港股。我们还要抽取实体,这个实体对推荐人很重要。


图片也是类似的原理,拿到图片也要分析,图片的标签和文本的标签一起使用,做一个内容的推荐。视频标签也可以从一帧一帧图片中抽取一些有意的信息。我们还做一些反作弊,包括识别广告和色情内容,图片分析也非常重要。


接下来介绍几个我们现在正在做的智能算法的应用案例,一些未来机器在创作环节可能做的事情。


我们也有写稿机器人,也是在里约奥运期间测试上线,奥运会期间,这个机器人自动发了100多个稿件,累计阅读超过100万,同样的话题,很多稿件的点击率比记者人工写的点击率还要高


另外一个可以做的就是视频的封面自动选择。今年算是短视频的爆发之年,短视频又是一个风口。在平台上不同封面对点击率影响非常大,怎么选一个好的封面?完全人去做可能凭经验,能不能靠机器做这件事情?我们根据有经验人的行为,学习到这个模式,提供一些建议,给你一些候选,最终的决策权在作者自己手里,因为你对你自己的内容更了解,你不仅要考虑点击率,可能还要考虑你的调性,是不是符合受众对你的期待。另外做的有趣的事就是算法自动生成视频集锦,这也是应对现在短视频的浪潮,有很多长视频的内容,没有足够人力剪辑,变成适合在短视频分发平台上传播的形式,机器有可能把这件事做得更好,可以规模化,更有效率地做这件事。




友情链接

Copyright © 2023 All Rights Reserved 版权所有 上海股票分析平台