(苦读书 www.kudushu.org) “小说网站模型失败的原因就在于面对所有用户,它都只有一个接入口,所有人来到站点都只能看编辑大人事先准备好的内容,所有人!所有人!所有人!重要的事情说三遍,所有人看到的都是同一个内容,来来去去都是一些符合编辑口味的作品在首页上大行其道。因为只有一条路,这条路上能走通的方向自然也是基本固定的了,这就是为什么小说库的访问范围不超过0.1%的原因。
某易云音乐能达到整个曲库访问量的5%,这是因为它给每个用户都开启了一扇随机门,每个用户的推荐内容都是不同的,一千万个用户就意味着有一千万个接入口,这么多条路,自然能够让整个曲库的访问范围扩展到极大的一个范围。
同样作为数据管理系统,某易云音乐显然是要强过小说网站的,强就强在它的自动推荐机制,现在的小说站点还不能有效的为用户提供个性化的推荐服务。
我去质问小说站点:你们为何迟迟不推出高质量的推荐系统?
小说站点回复说:我也不想这样呀!我们也有花钱投入,也有尝试做出让用户满意的东西呀!可是做不出来怎么办嘛,投入资金没有回报我有什么办法嘛。
搞个推荐系统有这么难吗?
于是我开始研究这个东西,发现确实挺难的,不过却也没有难到做不出来的程度。他们之所以没有成功做出高质量的推荐系统,这是因为他们挖掘数据的方法不对。
问题的重点归根结底只有一个,那就是如何让程序来评判一部作品的好坏。
程序可没有我们人类的大脑可以通过阅读作品来评判作品的好坏,所以程序想要实现评判作品好坏只能从作品和读者的行为来辨别作品的好坏。
我是个喜欢使用带入思维的程序员,因为这个方式比较好使,于是我尝试着带入了程序,我问了我这样一个问题:我应该如何在不看书本内容的情况下推断出两部作品的哪一部作品的质量更高呢?
要去看看作品的点击量吗?但是啊,点击量这个东西真的能衡量两部作品谁好谁坏吗?前面也说过了,因为小说站点只给读者预留了一条路,所以基本上只要能上首页,点击量必定能上去,就算作品内容就是一坨屎,它在荼毒了大量读者之后点击量依然能够超越大多数作品。这不是作品质量的胜利,而是能够登录首页的胜利。
就算抛除首页这个因素,两部作品中其中一部是人气作家的作品,作者本来就有观看群体,他开的新书点击量也肯定比新手作家的点击量更高吧,这依然不是作品质量的胜利,而是人气的胜利。
所以我认为点击量这项数据不靠谱,它不能成为衡量作品好坏的关键数据。
那么要去看看作品的收藏数据吗?
想了想还是不靠谱,因为小说站点上允许游客访问,这些游客看作品是不会点击收藏的,账号都没有收藏个屁啊。只看收藏数据岂不是对这些游客的意见不管不顾?来自游客的数据难道不作为参考依据了吗?大数据之所以叫大数据,自然是需要足够多的数据才能深挖出宝贵的数据,不仅不多收集数据,还要屏蔽大部分人的浏览数据这样做显然是不对的。
于是我得出结论,无论是点击量还是收藏数据,都不能真正评判出一部作品的好坏。
得到这个结论的我当时惊了个呆,难道就没有一种能够真正评判作品好坏的参考数据吗?
有,我想到了一个数据能够评判作品的好坏。
这个思路有点奇葩,我把采集数据的重点从作品的身上转移到了读者的身上。
既然作品的数据不太靠谱的话,那么也只能从读者的身上入手了呀!毕竟作品好不好还得靠读者来评判不是?那么应该如何从读者身上采集数据呢?点击量是读者贡献的,收藏也是读者贡献的,我还能从读者身上采集到怎样的数据呢?
答案是【弃坑】数据。
这是一种行为,读者认为一部作品如果不好看,那么他会在看了一部分内容后放弃这部作品,转看其他作品。如果我能够监测到读者的这种行为的话,那么我就可以判定作品到底有多坏了。
是的,不是评判作品有多好,而是评判作品有多坏。
现在有AB两部作品,同样有100个人在看,作品A的100读者从头到尾看完了这部作品,而作品B的100读者看到一半就全部弃坑了,请问作品A和作品B到底哪个作品的质量更好?
这是显而易见的一件事情吧。
如果能够获得这一数据的,那么我想,让程序判定作品好坏就成为了可能。
那么要如何捕捉到读者的这一行为呢?
如果仅仅是通过“已阅”这个简单的数据来捕获弃坑数据,显然有点太过于简单粗糙了,想要提高推荐系统的质量,仅仅依靠这么一个个小小的改变显然并不能做出太大的提高,想要让程序对作品好坏的评判更加精准,更加细致,还需要一个多维度的视角才能得到更精准的判断。
弃坑数据的这个想法只是开始,随着时间的推移,我想到了越来越多的点子来完善这一套推荐机制。
最后弄出来的成果是一套叫做【累积阅读时间】的东西。注意重点是一套,而不是单纯的给作品添加这么一个时间维度的数据。
只要给作品的单章添加一个计时器,就能开始采集这项数据。要是担心读者在这个页面上逗留的时间过长而采集到虚假数据,还要根据单章字数设立一个最大可采集的时间值。这样读者想帮作者作弊也就不行了。
所有访问过这个单章的用户,停留在这个页面的时间总和,是这个单章赚取的累积阅读时间,而整部小说的累积阅读时间是所有单章累积阅读时间的总和。
最终作品的累积时间很有可能会变成这样的数据,某某某作品累积阅读时间已经达到了三千年之类的。
什么?觉得三千年夸张了?一点都不夸张好么。
假设一单章平均阅读时间是3分钟,那么100章节就需要5小时时间,读完一部1000章的作品需要的时间就需要两天时间,1万人读完这部作品,就是两万小时,除以365天就是...50多年了好么。三千年只需要六十万人读完这部作品,作品累积的阅读时间就到达三千年了。
不要纠结这种小事情了,我要跟你们说的是,当作品拥有了累积阅读时间后,可以做到的事情就非常有趣了。”
这还真是意外的干货呀!
晓奇顺着带头人的思路同样在思考如何让程序判定一部作品好坏的事情,发现自己好像没有什么头绪,而当他提出捕获弃坑数据,从作品的弃坑率来评判作品好坏的时候,晓奇就感觉这确实是一个十分可行的思路,原本以为弃坑数据应该是个不错的方案了,谁知道弃坑数据之后又牵引出了一个累积阅读时间,还说能够做到很多有趣的事情,究竟是什么有趣的事情呢?
晓奇感觉自己的胃口被这位带头人吊起来了。苦读书 www.kudushu.org
某易云音乐能达到整个曲库访问量的5%,这是因为它给每个用户都开启了一扇随机门,每个用户的推荐内容都是不同的,一千万个用户就意味着有一千万个接入口,这么多条路,自然能够让整个曲库的访问范围扩展到极大的一个范围。
同样作为数据管理系统,某易云音乐显然是要强过小说网站的,强就强在它的自动推荐机制,现在的小说站点还不能有效的为用户提供个性化的推荐服务。
我去质问小说站点:你们为何迟迟不推出高质量的推荐系统?
小说站点回复说:我也不想这样呀!我们也有花钱投入,也有尝试做出让用户满意的东西呀!可是做不出来怎么办嘛,投入资金没有回报我有什么办法嘛。
搞个推荐系统有这么难吗?
于是我开始研究这个东西,发现确实挺难的,不过却也没有难到做不出来的程度。他们之所以没有成功做出高质量的推荐系统,这是因为他们挖掘数据的方法不对。
问题的重点归根结底只有一个,那就是如何让程序来评判一部作品的好坏。
程序可没有我们人类的大脑可以通过阅读作品来评判作品的好坏,所以程序想要实现评判作品好坏只能从作品和读者的行为来辨别作品的好坏。
我是个喜欢使用带入思维的程序员,因为这个方式比较好使,于是我尝试着带入了程序,我问了我这样一个问题:我应该如何在不看书本内容的情况下推断出两部作品的哪一部作品的质量更高呢?
要去看看作品的点击量吗?但是啊,点击量这个东西真的能衡量两部作品谁好谁坏吗?前面也说过了,因为小说站点只给读者预留了一条路,所以基本上只要能上首页,点击量必定能上去,就算作品内容就是一坨屎,它在荼毒了大量读者之后点击量依然能够超越大多数作品。这不是作品质量的胜利,而是能够登录首页的胜利。
就算抛除首页这个因素,两部作品中其中一部是人气作家的作品,作者本来就有观看群体,他开的新书点击量也肯定比新手作家的点击量更高吧,这依然不是作品质量的胜利,而是人气的胜利。
所以我认为点击量这项数据不靠谱,它不能成为衡量作品好坏的关键数据。
那么要去看看作品的收藏数据吗?
想了想还是不靠谱,因为小说站点上允许游客访问,这些游客看作品是不会点击收藏的,账号都没有收藏个屁啊。只看收藏数据岂不是对这些游客的意见不管不顾?来自游客的数据难道不作为参考依据了吗?大数据之所以叫大数据,自然是需要足够多的数据才能深挖出宝贵的数据,不仅不多收集数据,还要屏蔽大部分人的浏览数据这样做显然是不对的。
于是我得出结论,无论是点击量还是收藏数据,都不能真正评判出一部作品的好坏。
得到这个结论的我当时惊了个呆,难道就没有一种能够真正评判作品好坏的参考数据吗?
有,我想到了一个数据能够评判作品的好坏。
这个思路有点奇葩,我把采集数据的重点从作品的身上转移到了读者的身上。
既然作品的数据不太靠谱的话,那么也只能从读者的身上入手了呀!毕竟作品好不好还得靠读者来评判不是?那么应该如何从读者身上采集数据呢?点击量是读者贡献的,收藏也是读者贡献的,我还能从读者身上采集到怎样的数据呢?
答案是【弃坑】数据。
这是一种行为,读者认为一部作品如果不好看,那么他会在看了一部分内容后放弃这部作品,转看其他作品。如果我能够监测到读者的这种行为的话,那么我就可以判定作品到底有多坏了。
是的,不是评判作品有多好,而是评判作品有多坏。
现在有AB两部作品,同样有100个人在看,作品A的100读者从头到尾看完了这部作品,而作品B的100读者看到一半就全部弃坑了,请问作品A和作品B到底哪个作品的质量更好?
这是显而易见的一件事情吧。
如果能够获得这一数据的,那么我想,让程序判定作品好坏就成为了可能。
那么要如何捕捉到读者的这一行为呢?
如果仅仅是通过“已阅”这个简单的数据来捕获弃坑数据,显然有点太过于简单粗糙了,想要提高推荐系统的质量,仅仅依靠这么一个个小小的改变显然并不能做出太大的提高,想要让程序对作品好坏的评判更加精准,更加细致,还需要一个多维度的视角才能得到更精准的判断。
弃坑数据的这个想法只是开始,随着时间的推移,我想到了越来越多的点子来完善这一套推荐机制。
最后弄出来的成果是一套叫做【累积阅读时间】的东西。注意重点是一套,而不是单纯的给作品添加这么一个时间维度的数据。
只要给作品的单章添加一个计时器,就能开始采集这项数据。要是担心读者在这个页面上逗留的时间过长而采集到虚假数据,还要根据单章字数设立一个最大可采集的时间值。这样读者想帮作者作弊也就不行了。
所有访问过这个单章的用户,停留在这个页面的时间总和,是这个单章赚取的累积阅读时间,而整部小说的累积阅读时间是所有单章累积阅读时间的总和。
最终作品的累积时间很有可能会变成这样的数据,某某某作品累积阅读时间已经达到了三千年之类的。
什么?觉得三千年夸张了?一点都不夸张好么。
假设一单章平均阅读时间是3分钟,那么100章节就需要5小时时间,读完一部1000章的作品需要的时间就需要两天时间,1万人读完这部作品,就是两万小时,除以365天就是...50多年了好么。三千年只需要六十万人读完这部作品,作品累积的阅读时间就到达三千年了。
不要纠结这种小事情了,我要跟你们说的是,当作品拥有了累积阅读时间后,可以做到的事情就非常有趣了。”
这还真是意外的干货呀!
晓奇顺着带头人的思路同样在思考如何让程序判定一部作品好坏的事情,发现自己好像没有什么头绪,而当他提出捕获弃坑数据,从作品的弃坑率来评判作品好坏的时候,晓奇就感觉这确实是一个十分可行的思路,原本以为弃坑数据应该是个不错的方案了,谁知道弃坑数据之后又牵引出了一个累积阅读时间,还说能够做到很多有趣的事情,究竟是什么有趣的事情呢?
晓奇感觉自己的胃口被这位带头人吊起来了。苦读书 www.kudushu.org
如果您中途有事离开,请按CTRL+D键保存当前页面至收藏夹,以便以后接着观看!