① 豆瓣电影的评分标准是什么有何算法
豆瓣的注册用户看完一部电影,心情好的话会来打个一到五星的分(有时候心情不好也会来)。比方说一部电影有42万用户打分。我们的程序把这42万个一到五星换算成零到十分,加起来除以42万,就得到了豆瓣评分。
这个评分会自动出现在豆瓣各处,中间没有审核,平时也没有编辑盯着看。每过若干分钟,程序会自动重跑一遍,把最新打分的人的意见包括进来。
那42万用户里可能包括资深电影评论家,可能包括你、你的亲戚、你的小学同学、早晨卖你油条的那个人,也可能包括阿北我个人。但每个人都是一票。这个是“大众评审团”应该的含义:不是说团里的人全都大众,而是说和大众一样一人一票。
豆瓣的工作人员偶然收到“我明明给这个片子打了五星,为什么评分一点没变”的投诉的时候,除了心里嘀咕一下“哎,你拿这些红人/独生子女/八零后/九零后/零零后/数学不好的人怎么办”以外,会(或者应该)这样耐心解释:评分实际是变了,只是在小数点后四位,被四舍五入掉了。
但如果有几千个人和你一样都打五星的时候,分数就会变。
“一人一票”唯一的例外,是豆瓣的程序判断是“非正常打分”的帐号。这些打分会被排除在外。具体下面会说到。
豆瓣电影评分的主旨和原则,是“尽力还原普通观影大众对一部电影的平均看法”。这个主旨过去十年没变过,将来也不想变。
它并不是专家、影视从业人员或者资深人士对电影的看法,虽然这些看法会被豆瓣算在“普通观影大众”之内。所以有次听到“豆瓣电影评分不专业”的说法的时候,我的反应这是在说“大众不专业”,应该怪语文才是。个人认为汇总专家意见会是另一个很有价值的服务,但这个确实不是豆瓣评分的宗旨。
豆瓣简介
豆瓣(douban)是一家社区网站。网站由杨勃(网名“阿北”)[3]创立于2005年3月6日。该网站以书影音起家,提供关于书籍、电影、音乐等作品的信息,无论描述还是评论都由用户提供,是中国Web 2.0网站中具有特色的一个网站。
网站还提供书影音推荐、线下同城活动、小组话题交流等多种服务功能,它更像一个集品味系统(读书、电影、音乐)、表达系统(我读、我看、我听)和交流系统(同城、小组、友邻)于一体的创新网络服务,一直致力于帮助都市人群发现生活中有用的事物。2012年,豆瓣阅读上线,开始进入网上电子书版权领域。
(1)影视解析算法扩展阅读:
豆瓣其他产品
1.豆瓣FM
豆瓣FM是你专属的个性化音乐收听工具,打开就能收听,可以用“红心”、“垃圾桶”或者“跳过” 告诉豆瓣FM你的喜好。豆瓣FM将根据你的操作和反馈,从海量曲库中自动发现并播出符合你音乐口味的歌曲,提供公共、私人和红心三种收听方式。在红心兆赫离线也能收听。
2.豆瓣读书- 豆瓣读书自2005年上线,已成为国内信息最全、用户数量最大且最为活跃的读书网站。我们专注于为用户提供全面、且精细化的读书服务,同时不断探索新的产品模式。到2012年豆瓣读书每个月有超过800万的来访用户,过亿的访问次数。
3.豆瓣阅读
豆瓣阅读是豆瓣读书2012年推出的数字阅读服务,支持 Web、iPhone、iPad、Android、Kindle等桌面和移动设备,自2012年5月7日作品商店上线以来,商店作品达600余部,用户评论3000余篇,有50万用户购买过付费或者免费作品。
豆瓣阅读的现有内容涵盖了小说、历史、科技、艺术与设计、生活等多种门类,定位为短篇作品和图书于一体的综合平台。
4.豆瓣音乐
豆瓣音乐是中国最大的音乐分享、评论、音乐人推广社区,拥有最完整的全球音乐信息库、最权威的用户音乐评论,和最具创造力的独立音乐人资源。汇集90多万音乐条目,包括小凡say、幼稚园杀手、MC光光、呆宝静等21000多位独立音乐人入驻,2011年全年平均每5分钟诞生一首原创音乐,覆盖粉丝超千万。
5.豆瓣同城
豆瓣同城是国内最大的线下活动信息发布平台,包括音乐/演出、话剧、展览、电影、讲座/沙龙、戏剧/曲艺、生活/聚会、体育、旅行、公益……专注于一线城市业余生活方式。
6.豆瓣小组
豆瓣小组于2005年上线,定位于“对同一个话题感兴趣的人的聚集地”,至今已有30多万个小组被用户创建,月独立用户超过5500万。内容包括娱乐、美容、时尚、旅行等生活的方方面面。用户在这里发布内容,同时也通过互动或浏览,发现更多感兴趣的内容。
② KNN 算法-理论篇-如何给电影进行分类
KNN 算法 的全称是 K-Nearest Neighbor ,中文为 K 近邻 算法,它是基于 距离 的一种算法,简单有效。
KNN 算法 即可用于分类问题,也可用于回归问题。
假如我们统计了一些 电影数据,包括电影名称,打斗次数,接吻次数,电影类型 ,如下:
可以看到,电影分成了两类,分别是动作片和爱情片。
如果现在有一部新的电影A,它的打斗和接吻次数分别是80 和7,那如何用KNN 算法对齐进行分类呢?
我们可以将打斗次数作为 X 轴 ,接吻次数作为 Y 轴 ,将上述电影数据画在一个坐标系中,如下:
通过上图可以直观的看出,动作电影与爱情电影的分布范围是不同的。
KNN 算法 基于距离,它的原理是: 选择与待分类数据最近的K 个点,这K 个点属于哪个分类最多,那么待分类数据就属于哪个分类 。
所以,要判断电影A 属于哪一类电影,就要从已知的电影样本中,选出距离电影A 最近的K 个点:
比如,我们从样本中选出三个点(即 K 为 3),那么距离电影A 最近的三个点是《功夫》,《黑客帝国》和《战狼》,而这三部电影都是动作电影。因此,可以判断电影A 也是动作电影。
另外,我们还要处理两个问题:
关于点之间的距离判断,可以参考文章 《计算机如何理解事物的相关性》 。
至于K 值的选择,K 值较大或者较小都会对模型的训练造成负面影响,K 值较小会造成 过拟合 ,K 值较大 欠拟合 。
因此,K 值的选择,一般采用 交叉验证 的方式。
交叉验证的思路是,把样本集中的大部分样本作为训练集,剩余部分用于预测,来验证分类模型的准确度。一般会把 K 值选取在较小范围内,逐一尝试K 的值,当模型准确度最高时,就是最合适的K 值。
可以总结出, KNN 算法 用于分类问题时,一般的步骤是:
如果,我们现在有一部电影B,知道该电影属于动作电影,并且知道该电影的接吻次数是 7 ,现在想预测该电影的打斗次数是多少?
这个问题就属于 回归问题 。
首先看下,根据已知数据,如何判断出距离电影B 最近的K 个点。
我们依然设置K 为3,已知数据为:
根据已知数据可以画出下图:
图中我画出了一条水平线,这条线代表所有接吻次数是7 的电影,接下来就是要找到距离 这条线 最近的三部(K 为 3)动作电影。
可以看到,距离这条水平线最近的三部动作电影是《功夫》,《黑客帝国》和《战狼》,那么这三部电影的打斗次数的平均值,就是我们预测的电影B 的打斗次数。
所以,电影B 的打斗次数是:
本篇文章主要介绍了 KNN 算法 的基本原理,它简单易懂,即可处理分类问题,又可处理回归问题。
KNN 算法 是基于 距离 的一种机器学习算法,需要计算测试点与样本点之间的距离。因此,当数据量大的时候,计算量就会非常庞大,需要大量的存储空间和计算时间。
另外,如果样本数据分类不均衡,比如有些分类的样本非常少,那么该类别的分类准确率就会很低。因此,在实际应用中,要特别注意这一点。
(本节完。)
推荐阅读:
决策树算法-理论篇-如何计算信息纯度
决策树算法-实战篇-鸢尾花及波士顿房价预测
朴素贝叶斯分类-理论篇-如何通过概率解决分类问题
朴素贝叶斯分类-实战篇-如何进行文本分类
计算机如何理解事物的相关性-文档的相似度判断