美国顶级投资人长文解释,为何看好今日头条

钛媒体 tmtpost
|科技引领新经济|
今日头条正在逐步接近其最终目标,即在本质上消除搜索的概念,成为直接提供超相关聚合内容的提供商。我们在美国看到了很多昙花一现的“内容聚合者”,但是很有可能这是当时时机尚未成熟的商业构想,而更先进的算法将成为其成功的催化剂。
10月11日,美国著名创业企业孵化器 y combinator 在其博客上发表了《超级app 今日头条背后隐藏的力量》一文,系统地梳理和回顾了今日头条五年内成长为中国热门应用的历程,并分析其在产品和技术方面的成功之道。
y combinator 成立于2005年,目前为硅谷最具影响力的创业企业孵化器,其每年举办两次的创业孵化营培养出大量的独角兽公司,入选孵化营的创业项目将受到大量媒体关注和资金追捧。截至2017年初,y combinator 已经投资了1470家初创企业,所投企业总估值超过1000亿美元,其中的明星企业包括airbnb, reddit, dropbox, quora 等。
文章作者 anu hariharan 是 y combinator 一名合伙人,也是今日头条的一名个人投资者。她认为,今日头条的迅猛增长归功于其产品推出伊始制定的众多战术和战略决策之间的交互作用,她称之为“ 头条背后的五大隐形力量”。 全文如下:
爆款app《今日头条》背后看不见的力量
通过机器和深度学习创建并服务于内容,今日头条打造了一款有着社交网络互动属性却没有社交关系图谱痕迹的产品。
作者:阿奴·哈里哈兰(anuhariharan)
卢克·普赖尔(luke pryor)和布拉德·莱特凯普(brad lightcap)对此文也有特别贡献。
《今日头条》可能是你从未听过的最流行的一款app,这是一款类似将新闻推送,youtube以及techmeme三合一的产品。在中国,每天有超过1.2亿的用户使用今日头条。然而,关于今日头条最有意思的并不是用户在同一平台上消费如此丰富的内容,而是它提供内容的方式。不依赖用户任何明确的指令、社交关系图谱或产品购买历史,今日头条通过机器学习和深度学习算法,为用户提供个性化、高质量的内容推送。
不仅仅局限于为用户呈上内容,今日头条还通过算法创造内容。在2016年奥运会期间,今日头条机器人撰写了原创新闻报道,在重大赛事报道方面较之传统媒体更为迅速。平均来看,机器人撰写的文章所获得了与速度更慢、成本更高的人工撰写的文章相仿的阅读率(阅读数量和用户印象)。
平均每个用户每天在今日头条上花费的时间超过76分钟——超过了facebook的平均用户时长[1],是snapchat平均用户时长的两倍以上[2]。其中一半以上的时间用于观看短视频;加之每天超过100亿次的视频观看量,让今日头条成为了中国的youtube(当然,今日头条提供的其他一切服务也是如此)。
那么今日头条是如何做到这一切的呢?尤其是在没有像阿里巴巴、百度和腾讯这样的中国互联网巨头打造的大规模消费者平台的基础上?笔者将通过本文探究今日头条如何获得1.2亿日活跃用户。今日头条没有将其增长归结于任何单一因素,而是归功于在其产品推出伊始制定的众多战术和战略决策之间的交互作用。
具体而言就是笔者在下面列出的五大优势。尽管“爆款app”在美国并不常见,但笔者相信,通过分析今日投条这一案例得到的收获和启发,可以为其他人在打造他们自身的产品和平台的过程中提供思路。
背景信息—今日头条是谁?
2012年推出的今日头条使用机器和深度学习算法筛选出用户最感兴趣的内容并将之呈现。今日头条的底层算法通过用户的使用习惯比如点击、滑动、在每篇文章上花费的时间、用户阅读新闻的时段、停留时间、评论、与内容的交互以及地理位置等等来了解用户,但同时并不需要用户的明确指令,并且也不依赖于用户的社交图谱。今天,今日头条通过数以百万计的维度对每个用户进行分析,从而在每个用户每次打开程序的时候生成和推送个性化、丰富的高质量内容。
头条背后的五大隐形力量
1. 瞄准空白,抓住机遇
对于一家初创企业,虽然时机就是一切,但要打造一款高粘性的应用程序,还需要不懈的努力。今日头条的推出时机是偶然的,但对这一独特机遇的挖掘确是有备而来。今日头条发布之时正值中国智能手机使用起飞之际:移动互联网普及率从2010年的几近空白陡增到2014年的65%[3]。
此外,许多大型内容提供商尚未开发移动应用程序或方便移动终端访问的网站,这意味着真正面向移动用户的优化信息和娱乐内容是稀缺的。到2012年中期,中国安卓平台上只有六款主要的新闻应用程序。其中四款是现有新闻门户的直接扩展,移动优化方面乏善可陈,另外两款是完全依靠速度缓慢、毫无个性化的编辑器输入来确定显示内容的聚合软件。
此外,微信和微博等中国社交媒体软件难以满足中国受众对内容(文章和视频)的需求。微信是一款信息通讯工具,到目前为止,形成了一个封闭的社交网络(即只能向好友进行内容分享和发布朋友圈)。
今日头条通过打造一款易于使用、个性化、内容丰富且具有高度粘性的针对移动用户优先的应用程序填补了这一需求空白。从一开始,今日头条的操作就非常简单——用户需要做的仅仅是下载一次软件而已,他们不需要创建账户,设置密码,也不需要将其与社交媒体关联(除非用户自愿)或者提供个人兴趣或偏好。
该应用程序的简约设计令其操作非常直观,用户不需要任何预先的知识或教程。对于任何应用程序,推进初步的用户交互——从下载到成为日活跃用户(dau)——都是异常艰难的一步。在这过程中的每一步都有可能因为用户遇到的沮丧、困惑或恼怒而失去他们,着在业界都是稀松平常的事情。
今日头条的名字(中文意思是当日重大新闻)及其应用程序的图标对用户而言非常具有吸引力,从而推动用户数量迅速增长。这也是首款将各类新闻文章聚合在一处的app。从发布初期开始,今日头条就开始跟踪每个用户的信息——他们的点击、滑动、在每篇文章上花费的时间和地理位置等等,从而为推荐引擎提供支持,这点笔者将在本文后面进行讨论。
在推出一个月后,头条已成为不少用户个性化的新闻聚合软件。该产品是当时同类中唯一一款精心设计的产品,此后发展迅速。仅用了四个月便突破了100万 dau。今日头条在互联网用户的移动时间还尚未被挤满的情况下提供了一些可以“打发时间”的事情。
在其发布的第一年,通过对其功能和算法持续创新、迭代和改进,头条几乎每周发布一次更新,从而随着时间的推移,其用户留存率不断提升。
在随后的几年中,对于移动用户关注度的竞争急剧上升——从2012年至2015年[4],中国的移动app用户数量在三年间增长超过三倍。而头条的早期领先优势意味着,当竞争者涌入之时,它已占据了重要且非常有价值的领地。
下图显示了两个不同用户的个性化推送
2. 建立在整个系统之上精心打造的数据网络效应
你可以拥有全世界所有的算法,但倘若没有一款高粘性的产品,你就得不到数据,而没有数据,任何算法都不可能让系统进化。马特·特克(matt turck)撰写了一篇有关数据网络强大力量的文章。简言之,用户对你的产品使用地越多,他们贡献的数据就越多。他们贡献的数据越多,你的产品就会变得更加智能。你的产品越智能(例如,更好的个性化和推荐),它就能更好地为你的用户提供服务,于是用户更有可能经常回过头来使用你的产品,并贡献更多的数据——从而创造一个良性循环。
通过打造一个高粘性的产品,今日头条从用户处生成交互数据。这些数据被输入到今日头条的算法中,从而进一步优化产品的质量。最终,该公司计划利用这一良性循环来优化他们所称之的“内容生命周期”的每个阶段:内容生成、内容管理、推荐和互动。
创作:
自从书面语言诞生以来,内容创作一直是人类的独家领域,而今日头条似乎正在改变这一事实。今日头条推出了一款名为小明机器人(xiaomingbot)的人工智能程序,迄今为止已在平台上发布了8000多则报道。小明于2016年奥运会期间首次亮相,其在发布重大赛事报道方面较传统媒体速度更快(大约在赛事结束后的2秒)。事实上,平均来看,机器人撰写的文章的阅读率(阅读数量和推荐数量)与速度更慢、成本更高的人工撰写文章相仿。
下图是由小明机器人撰写的文章截图,报道了2016年奥运会期间安迪·穆雷(andy murray)与胡安·马丁·德尔波特罗(juan martin del potro)之间的网球男单决赛结果。
为了实现这一功能,今日头条必须克服两大重大技术挑战:
首先,撰写奥运会赛事结果的故事需要数据,今日头条从三个来源中抽取:1)奥委会组织的实时赛事比分更新;2)从最近收购的一家图片收集公司获得的图片中获得相关视觉介质;3)监控有关赛事的实时文本评论。公司对四项运动赛事进行了机器人报道——乒乓球、网球、羽毛球和女子足球——从技术角度而言,这些比赛更容易发布赛况报道(乒乓球、网球和羽毛球是“回合制”的比赛,规则较其他运动更为简单,此外,对于女子足球拥有高质量的独家数据来源使其成为第四项报道赛事。)
第二,今日头条必须确定这三个来源的数据如何组合,以确保内部的一致性和故事的相关性。这比第一步访问和诠释数据的挑战更大。任何选定的图像需要与赛事的结果相关,并且还要适合于从评论中提取信息。这反过来要求今日头条的ai团队将自然语言处理能力与上下文图像识别相结合。他们最终将基于语法表达生成的报道模板——从实时文本评论中选择相关句子的排序算法,与图像文本匹配算法整合在一起。该系统还通过卷积神经网络来分析候选图像中的内容。
通过使用历史数据进行训练,该模型能够为报道挑选出最相关和最具视觉吸引力的图片。他们还使用序列到序列深度学习算法将现有报道总结成每日新闻精要,并为文章提供更好的标题建议。系统采用递归神经网络来计算句子的向量表示,并将这些句子向量进一步反馈到一个排序模型中,从而为每篇文章提取简明摘要。
通过这些努力,今日头条在里约热内卢奥运会期间发布了450条500-1,000字的机器人报道,这些内容取得了巨大的成功。这些文章的阅率(阅读数量除以用户印象数)与速度更慢、成本更高的人工撰写文章相当。今日头条将这一内容制作能力拓展至体育赛事报道之外,迄今为止,已累计发布了8,000多条报道,并且还在积极投入研究,解决剩下的技术问题,让其作品与人类写手相媲美。
内容审核:
在其早期,“软新闻”是今日头条主要的交互驱动力之一——如名人八卦、流行文化和生活方式等领域的文章。这并非偶然。与通过知名的政府控制的新闻机构发布的官方新闻所不同,软性内容在互联网上通过数量众多的网站发布。总之,没有一个集中的地方可以获得这些内容:搜寻这些消息的用户需要投入大量时间访问不同的站点,并且也不能保证就可以获得他们最感兴趣的信息。
今日头条改变了这一局面。通过获取、集中和优化信息发布渠道,它将用户在内容查找上所需要投入的时间降到几乎为零,并且提升了用户发现他们最关心的内容的信心。这一点为用户带来了真正的价值。
内容管理核心需要解决双重问题:除了为用户提供内容外,内容管理人必须找到内容。内容管理人首先需要访问网站,找到信息,并收集相关元数据。其次需要不断更新中央信息库,并创建尽可能多的个性化版本。两者都是过程密集型任务,此时算法比人类拥有明显的优势。在其刚刚诞生的时候,今日头条在这一领域面临的唯一重大竞争来自于由人工编辑处理此项工作的门户网站,而今日头条利用算法,令其在与人类编辑的竞争中取得了重大优势。
该系统以更快的速度处理了人类编辑的工作,这一速度直接转化为今日头条用户的价值。今日头条能够更快,成本更低的收集更多的内容,在一个客户价值与内容质量、相关性和刷新率直接相关的行业中,形成一项巨大的优势。 算法的使用也意味着每个用户都可以基于持续更新的个人信息拥有个性化的兴趣——这是任何人类编辑都没有功夫去完成的事情。
今日头条还使用算法来识别和过滤低质量的内容。一个内容分发平台所分发的内容质量决定了该平台的质量。大规模分发基于cookie偏好裁断的内容(cookie-cutter content)(例如报纸和杂志)时代已成为过去时。在今日头条的世界里,该平台只向用户推送他们感兴趣的内容。虚假报道和垃圾信息是媒体行业的主要问题。今日头条d的底层算法使用文本分类算法来确定一篇文章是否为虚假消息,是否是标题党,或不符合今日头条的质量标准。在这方面,今日头条还通过用户版主来标记虚假文章,并聘请人工版主对有争议的报道进行仲裁。
推荐:
内容推荐是今日头条最为人称道的功能,这也是成就今日头条的成功与声誉的大功臣。在内容生命周期这一阶段,今日头条所使用的机器和深度学习算法拉开了其与同行之间的距离,是推动其用户持续增长和留存的关键。...