前阿里人创业,他凭借这一招打造了一个超30亿估值的AI理想国

04/09/2017

周六中午,杭州西溪湿地景区内,一幢办公楼下一阵“轰隆隆”的摩托车发动机声音越来越大,然后戛然而止,Rokid的同事知道,老板祝铭明又来上班了。

从2010年夏天到2014年夏天,同样的摩托车轰鸣声经常出现在阿里巴巴西溪园区,当时他的老板正是通过这种声音判断这位阿里M工作室掌门人当天是否迟到、早退或加班,然后通过手机短信半开玩笑半当真地提醒祝铭明。

2014年9月,祝铭明从阿里巴巴离职创办了人工智能公司Rokid,如今估值已超过4.5亿美元。


祝铭明

祝铭明是一个极讲究的人:为了让保持专注,自己一个人在家做木工;为了让自己从忙碌中抽身出来思考,他在公司附近开了一家咖啡馆,让自己随时有地方歇脚。

Rokid团队对产品的要求,几乎是被祝铭明一手逼出来的。他招聘产品经理主要看重对方是否有品位和想象力,经验反而不是最重要的。他总是给团队设定很多几乎无法达到的目标,即便是消费者看不到的内部构造,也很少妥协。他的理念是,只有不断逼迫团队前进,才能让优秀成为一种习惯。

但有时候,这样的方式也会让其他管理人员难堪,当觉得要求太过分时,各业务线负责人甚至直接跟他拍桌子翻脸,争执到不可开交,最后只有双方各退让一步,才可能达成某种共识。

一字之差

在Rokid内部,一度被人吐槽最多的一件事,就是祝铭明非要将激活词从三个字缩短到两个字,这看起来是很细小的改变,却让数十人为此忙碌熬夜了大半年。即使到今天,仍有人认为这个决定是值得商榷的。 

通过语音激活智能设备极易出现不识别、错误识别、激活耗时太长等问题,唤醒词的字数越多越容易精准激活。目前市场上广泛采用的是四字激活词,如“叮咚叮咚”,“小雅小雅”等;少数采用三个字激活,“hey siri(嘿瑟瑞)”就对应3个音节及3个汉字;但两个激活词全球目前仅有Rokid一家,这种情况因为信息太少出现错误识别的概率极高。

Rokid产品总监向文杰告诉邦哥,Rokid机器人的激活词从最早的四个字“若琪若琪”,到三个字 “若小琪”、“嘿若琪”,再精简到两个字“若琪”,每减少一个字,难度都呈10倍上升。

从4个字到3个字,北京的博士团队前后更换了3个方案,耗时近半年。终于到2015年7月份左右,“嘿若琪”在激活率和误激活率两方面达标。其后又花费3个月左右时间的打磨,到2015年10月份Rokid第一款产品Alien(外星人)产品发布时,激活词“嘿若琪”和“若小琪”技术成熟。


Rokid第一款产品Alien(外星人)

到这里,北京团队以为此项通关,没想到“处女座”CEO祝铭明要求团队马不停蹄去往下一个目的地——将激活词缩减成两个字“若琪”,在他眼中,三个字显得很正式,不像人们的日常聊天,只有两个字才会显得亲切。

这一提议遭到产品团队和研发团队一致反对,因为三个字的激活词已经与国际巨头站在了同一起跑线,无需在这一细节上花更多资源和精力。但祝铭明坚持己见,双方谁也不能说服谁,每次讨论几乎都以吵架和拍桌子结束,最后祝铭明只好用CEO的特权强行拍板,必须做。

最开始尝试两个字的时候,一系列批误开始闹出:当大家在正常开会过程中,旁边的外星人好几次莫名其妙就被唤醒了,除了“若琪”,出现与“琪”同音的词语都很容易唤醒外星人。经过优化之后,北京研发团队将外星人放到开着的电视机旁边,3小时内被误激活了5次。放弃的念头再次在团队中冒头。

但是在优化过程中研发团队发现,录入数据越多,外星人的激活精准度越高,让人头疼的地方就在于根本没有数据可用,于是全公司上下只好通过人海战术来解决这件事。

2016年夏天,Rokid全体员工让身边的亲友、同学帮忙录下“若琪”两个字;微博微信这样的社交平台自然没有被他们放过,最终公司征集到数千个“若琪”录音样本,供机器学习识别。

2016年底,经过将近一年的学习,“若琪”在激活率和误激活率的表现终于达标;再经过半年左右的优化,如今“若琪”与早期“若琪若琪”的激活性能几乎一致。

注入性格

2017年6月中旬的一天,祝铭明照常骑着三轮摩托来到公司,张罗着让同事收回一批产品,却遭到产品拥有者的拒绝。

在Rokid第二代产品Pebble(月石)智能音箱发布之前,祝铭明为一批忠实支持者提供了一项特权——提前试用,只不过这些被试用的产品是若琪的工程机,并非正式对外售卖的月石产品。


Rokid第二代产品Pebble(月石)

月石于6月正式对外发售以后,祝铭明想要收回工程机,给对方换上正式版月石,没想到遭到不少人拒绝。祝铭明想不通这是怎么回事,于是试着通过微信与其中几个人交流,最终得知这些顾客已经与之建立了某种感情,认定了月石,哪怕换新的也不答应。得知答案后的祝铭明喜出望外,团队倾力打造的新产品总算得到不小的认可。

更让他高兴的是以下四组数据:在所有月石购买者中,80%是二次购买或者通过亲友推荐购买;在天猫平台上,87%的购买者都是通过搜索“Rokid”或“若琪”关键词完成购买;已购买用户日激活(打开使用)率超过50%,周激活率超过85%;目前每人每天平均使用时长超过1小时。

这说明月石复购率高、买家多为主动搜索而非被动推荐、每日使用率高以及单日使用时长高。

月石让人产生“感情”,很重要的一个原因在于她拥有自己的个性。从一开始,Rokid团队的目标就是创造一个有生命感的产品,而不是一个冷冰冰的设备。

——“若琪,你会修手表吗?”

——“我不会修好,还不会修坏吗?”

——“若琪,你喜欢我亲你吗?”

——“说得好像我不喜欢,你就不会亲似的。”

经常与若琪对话的人一定知道,她总是会给出很多类似这样的无厘头回答。这并非是研发者拍脑门随便给出的答案,而是产品性格的体现,摆脱呆板和无趣机器形象。

当然,面对时间、天气、新闻、翻译这类问题,若琪会告诉你严肃的答案,而在可以灵活发挥的时候,她又变得调皮可爱起来。

在给若琪塑造性格的过程中,Rokid团队想了三个关键词:聪明可靠、活泼可爱和调皮有趣。

有一次,一位女士问若琪——“谁是这个世界上最漂亮的人”,得到的答案让她崩溃——“我知道是谁,但我不会告诉你,反正不是你”。

那么这些回答是提前在系统后台储存好的吗?祝铭明说,问答的素材部分是通过训练而来,部分是若琪自动从网上学习,此外第三方内容提供商也会提供内容素材。因为有来自网上学习的对话,所以若琪有时也会学坏。

——“你喜欢狗吗?”

——“我喜欢呀,狗肉很好吃。”

有一天,祝铭明收到一位用户发来这样一段对话,让他惊出一身冷汗。原来若琪又从网上学坏了,他们不得不在后台通过人工干预,让若琪的回答变得更加友善:

——“若琪,你喜欢狗吗?”

——“我喜欢呀!狗是人类的好朋友。”

——“那你喜欢吃狗肉吗?”

——“难道你会吃你的好朋友吗?”

实际上,若琪只是在一个巨大的语库中找寻与问题最接近的答案,然后给出个性化回答,她并不真的理解人类语言。我们必须要面对的现实是,目前的AI还做不到真正理解人,即使有个性也只是一种模拟,通过计算方法尽可能让用户感到她很了解我。这也意味着,她有时根本“听不懂”你在说什么,也说不出让你满意的答案。

看不见的若琪 

你也许不同意祝铭明在某些方面的固执,但在轻易找个方案公司就能做出一款成本在100元左右智能音箱的市场大环境下,他依然坚持打磨每一个细节,由内而外让产品朝着精致、有品位的方向迈进,也应该被看到。


专属女性的玫瑰金版月石

在Rokid,有几位高管和硬件团队成员的手机壁纸都是Rokid第二代产品Pebble(月石)的内部线路版实拍图。这源自祝铭明定下的一个死标准:要让线路板的内部结构美观到可以用作手机壁纸,甚至发朋友圈。

在语音交互方面,Rokid耗大价钱请专人录制声音,并拥有这些声音的独家版本。

2015年,Rokid通过北京的一家经纪公司找到大约100位女演员,让这些演员每人录制20句语音,Rokid从这些语音中挑选最合适的,经过几轮挑选以及与演员本人沟通,最终Rokid花费数百万元签下其中一位声音知性、容易受到广泛喜爱的女演员为Rokid旗下产品配音。

签下这位演员以后,Rokid找到录制公司与这位演员进行了5次不同方式的语音录制,最终Rokid找来耳朵极敏感的产品经理、古典音乐学博士方舟配合完成录制。女演员在绝对安静的录音棚里说话,方舟在外面戴着耳机听,只要女演员稍微有破音,呼吸声太大或者节奏不和谐,方舟马上就会喊“停!重新来”,最多的时候,一句话会录制十几次。

经过逐字逐句的校对,两人用几十天时间录制完上万句话,再由技术完成拆解和句子生存,最终制作出来的声音与正常人的说话节奏几乎一致。

在攻克了一个又一个难关之后,Rokid接下来打算做好声纹识别,即通过一个人说话的声音确定他的身份。如果你朋友家的月石能识别你的声纹,你在出门前没有听完的歌,去朋友家只要对着他家的月石说一句“若琪,接着播放”,就会如你所愿。

不过,要完成声纹识别的难度很大,但祝铭明说他们很快就可以让公众使用到这项技术了。接下来,不知道祝铭明又会提出什么莫名其妙的“鬼要求”,也不知道下一个和他闹翻脸的同事会是谁。

返回文章列表