㈠ 如何改进SVM算法,最好是自己的改进方法,别引用那些前人改进的算法
楼主对于这种问题的答案完全可以上SCI了,知道答案的人都在写论文中,所以我可以给几个改进方向给你提示一下:
1 SVM是分类器对于它的准确性还有过拟合性都有很成熟的改进,所以采用数学方法来改进感觉很难了,但是它的应用很广泛 SVMRank貌似就是netflix电影推荐系统的核心算法,你可以了解下
2 与其他算法的联合,boosting是一种集成算法,你可以考虑SVM作为一种弱学习器在其框架中提升学习的准确率
SVM的本身算法真有好的改进完全可以在最高等级杂志上发论文,我上面说的两个方面虽然很简单但如果你有实验数据证明,在国内发表核心期刊完全没问题,本人也在论文纠结中。。
㈡ 协同过滤和基于内容推荐有什么区别
基于内容的推荐只考虑了对象的本身性质,将对象按标签形成集合,如果你消费集合中的一个则向你推荐集合中的其他对象;
基于协同过滤的推荐算法,充分利用集体智慧,即在大量的人群的行为和数据中收集答案,以帮助我们对整个人群得到统计意义上的结论,推荐的个性化程度高,基于以下两个出发点:(1)兴趣相近的用户可能会对同样的东西感兴趣;(2)用户可能较偏爱与其已购买的东西相类似的商品。也就是说考虑进了用户的历史习惯,对象客观上不一定相似,但由于人的行为可以认为其主观上是相似的,就可以产生推荐了。
㈢ 学IT的,写了一个电影推荐系统,但是为什么评分预测值大于五
全文以“预测电影评分”例子展开
r(i,j)=0则表明user_j没有对movie_i 没有评分,
推荐系统要做的就是通过预测user_j对这些movie {i|r(i,j)=0}的评分来给user_j 推荐其可能会喜欢的电影<预测评分较高的movie>
=======================================二、基于内容的推荐=======================================
对每个movie_i引入特征x(i)=(x1, x2),这种特征可能表明user对movie类型的偏好:浪漫or动作等
对于每个user引入一个参数theta,然后对评分矩阵的每列(对应一个user)做线性回归,数据是{ (x(i), y(i,j)) |r(i,j)=1,for some j all i}
像机器学习一样,x(i)添加个1变量x(i)=(1, x1, x2)
那么对于未评分的movie_t,我们可以使用线性回归训练的参数theta与对应特征x(t)做内积来得到其预测评分
对每个用户都训练一个参数theta_j,优化模型如下:
优化算法:注意正则项是不约束x(i)=(1, x1, x2)中1对应的参数theta的第一项theta0,所以k=0与k=1,2分别对待
=======================================三、协同过滤=======================================
现在换个角度:如果知道theta for all user j,如何来预测x(i) = (x1, x2) all i
仍然可以使用线性回归,为训练每个x(i),需要评分矩阵的第i行数据{ (x(i), y(i,j)) |r(i,j)=1,for some i all j}
theta_j = (0, theta1, theta2) ;theta1=5说明user_j喜欢romance类movie, theta2=5说明user_j喜欢action类movie,只能有一个等于5哦,
我觉得也可以是:theta_j = (0, 4, 1) ;喜欢romance 4 action 1.
对应的优化:
协同过滤:交替优化theta与x
=========================================四、协同过滤算法=======================================
优化:
优化:注意去掉了theta和x的添加项
=========================================五、实现细节补充=======================================
实现细节:
如果有user没有对任何电影评分或者所有评分的电影都是0分,那么所学习到的参数是零向量,
则预测都是0值,这是不合理的。通过 将评分矩阵减去其行均值再进行线性回归来“避免”这种情况
=========================================六、一点思考==========================================
协同过滤那块,同时优化theta、x,这样得到的theta、x还有特定的意义<比如:x是否还表征对影视类型的喜爱与否>没有?
回归中,在x数据上不添加1-feature是不是因为后来引入的平均值化;如果不是,那会对结果有什么影响?
用x-feature来表征一个movie,x-feature的各分量的可解释性;应该会有一部分user应为演员的缘故有一些"偏爱"。
这里,讲的"基于内容的推荐"与"协同过滤"跟以前对这两个词的认识/所指内容不同,查清楚、搞明白。
这周还会再更一篇关于此节课的算法实现,会对上述部分问题做出回答。
㈣ 阅读、电影和音乐的推荐算法,哪一个更难做
“阅读、电影和音乐的推荐算法,哪一个更难做?为什么?”关于这一问题,小编从诸多网友的回复中为你筛选了最用心、最高赞的回答!快来看看吧~
来看看网名为“幸运的ZLT0502”的网友是怎么说的:
电影---音乐----阅读!从我的经验来看,阅读是最难做到的,其次是音乐,最简单的就是电影。当然,是在有很多数据的前提下。从几个领域的特点来看:1.电影的item数量相对较少,好的电影有很长的生命周期,加上电影社区的用户行为,视频网站或预订网站,都很好获得,所以特别适合合作过滤。即使这不是一部大热门电影,你也可以根据导演、类型、明星等制作内容。这些都是结构化的信息,所以没有难度。音乐的item比电影要多一些,生命周期也非常不同,但它也可以用于基于用户行为的协同过滤。该算法如何表达和更新用户的兴趣?如何根据兴趣标签计算推荐结果?至少我没有看到特别成功的推荐阅读应用程序。算法上,都各有难度,但阅读类的,由于分类太多,在算法上自然要更加复杂。
来看看网名为“派网友”的网友是怎么说的:
个人认为无论是基于用户行为(协同过滤),还是基于内容相似度的推荐算法,难度从高到底都依次是:音乐-阅读-电影。
对于ID为“楼船吹笛雨潇潇”网友的精彩回答,大家纷纷点赞支持,他是这么说的:
我觉得是各有所难,并不能说哪个难,哪个容易。推荐的成功率:公共决策对推荐的影响:判断价值的建议:三者各有难度,但是个人在长期的习惯中可以对其中一种或者多种情景中加以选择和实践,但这也不是一蹴而就的事情,慢慢来吧。
你赞同哪位网友的观点呢?
㈤ 推荐算法有哪些
推荐算法大致可以分为三类:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。 基于内容的推荐算法,原理是用户喜欢和自己关注过的Item在内容上类似的Item,比如你看了哈利波特I,基于内容的推荐算法发现哈利波特II-VI,与你以前观看的在内容上面(共有很多关键词)有很大关联性,就把后者推荐给你,这种方法可以避免Item的冷启动问题(冷启动:如果一个Item从没有被关注过,其他推荐算法则很少会去推荐,但是基于内容的推荐算法可以分析Item之间的关系,实现推荐),弊端在于推荐的Item可能会重复,典型的就是新闻推荐,如果你看了一则关于MH370的新闻,很可能推荐的新闻和你浏览过的,内容一致;另外一个弊端则是对于一些多媒体的推荐(比如音乐、电影、图片等)由于很难提内容特征,则很难进行推荐,一种解决方式则是人工给这些Item打标签。 协同过滤算法,原理是用户喜欢那些具有相似兴趣的用户喜欢过的商品,比如你的朋友喜欢电影哈利波特I,那么就会推荐给你,这是最简单的基于用户的协同过滤算法(user-based collaboratIve filtering),还有一种是基于Item的协同过滤算法(item-based collaborative filtering),这两种方法都是将用户的所有数据读入到内存中进行运算的,因此成为Memory-based Collaborative Filtering,另一种则是Model-based collaborative filtering,包括Aspect Model,pLSA,LDA,聚类,SVD,Matrix Factorization等,这种方法训练过程比较长,但是训练完成后,推荐过程比较快。 最后一种方法是基于知识的推荐算法,也有人将这种方法归为基于内容的推荐,这种方法比较典型的是构建领域本体,或者是建立一定的规则,进行推荐。 混合推荐算法,则会融合以上方法,以加权或者串联、并联等方式尽心融合。 当然,推荐系统还包括很多方法,其实机器学习或者数据挖掘里面的方法,很多都可以应用在推荐系统中,比如说LR、GBDT、RF(这三种方法在一些电商推荐里面经常用到),社交网络里面的图结构等,都可以说是推荐方法。
㈥ 推进系统开发实战中电影系统中用的什么算法
协同过滤算法。推进系统开发实战中电影系统中用的是协同过滤算法,协同过滤算法是最经典、最常用的推荐算法。
㈦ "电影推荐指数"中的指数是怎么算出来的
是根据推荐人数来算的!
推荐的人越多指数就越高!
比如10个人推荐那么指数就涨0.1!
和淘宝上面的指数是一样的!
指数是一个统称,和股票数学中的底数都没有关系!
㈧ 奈飞公司的创新的大数据推荐算法
第一个Netflix大奖成功的解决了一个巨大的挑战,为提供了50个以上评级的观众准确的预测他们的口味。下一个百万大奖目标是,为那些不经常做影片评级或者根本不做评级的顾客推荐影片,要求使用一些隐藏着观众口味的地理数据和行为数据来进行预测。同样,获胜者需要公开他们的算法。如果能解决这个问题,Netflix就能够很快开始向新客户推荐影片,而不需要等待客户提供大量的评级数据后才能做出推荐。
新的比赛用数据集有1亿条数据,包括评级数据,顾客年龄,性别,居住地区邮编,和以前观看过的影片。所有的数据都是匿名的,没有办法关联到netflix的任何一个顾客。
与第一个大奖赛不同,这次比赛没有设定比赛目标。50万美金首先奖励给6个月内取得领先的团队,另外50万美金奖励给18个月后取得领先的团队。
推荐引擎是Netflix公司的一个关键服务,1千多万顾客都能在一个个性化网页上对影片做出1-5的评级。Netflix将这些评级放在一个巨大的数据集里,该数据集容量超过了30亿条。Netflix使用推荐算法和软件来标识具有相似品味的观众对影片可能做出的评级。两年来,Netflix 已经使用参赛选手的方法提高了影片推荐的效率,这已经得到了很多影片评论家和用户的好评。
Strands推荐引擎的首席科学家里克·汉加特纳博士写道:“在短期内,搜索引擎将会越来越多地加入简单的推荐技术,以处理接近的查询词(例如,“您要找的是这个,根据类似查询/其他人的搜索,你可能要寻找的是这个。”)但从长期来说,而比起搜索行业和搜索技术,推荐技术会更加地无孔不入。”
㈨ 豆瓣电影的评分标准是什么有何算法
豆瓣的注册用户看完一部电影,心情好的话会来打个一到五星的分(有时候心情不好也会来)。比方说一部电影有42万用户打分。我们的程序把这42万个一到五星换算成零到十分,加起来除以42万,就得到了豆瓣评分。
这个评分会自动出现在豆瓣各处,中间没有审核,平时也没有编辑盯着看。每过若干分钟,程序会自动重跑一遍,把最新打分的人的意见包括进来。
那42万用户里可能包括资深电影评论家,可能包括你、你的亲戚、你的小学同学、早晨卖你油条的那个人,也可能包括阿北我个人。但每个人都是一票。这个是“大众评审团”应该的含义:不是说团里的人全都大众,而是说和大众一样一人一票。
豆瓣的工作人员偶然收到“我明明给这个片子打了五星,为什么评分一点没变”的投诉的时候,除了心里嘀咕一下“哎,你拿这些红人/独生子女/八零后/九零后/零零后/数学不好的人怎么办”以外,会(或者应该)这样耐心解释:评分实际是变了,只是在小数点后四位,被四舍五入掉了。
但如果有几千个人和你一样都打五星的时候,分数就会变。
“一人一票”唯一的例外,是豆瓣的程序判断是“非正常打分”的帐号。这些打分会被排除在外。具体下面会说到。
豆瓣电影评分的主旨和原则,是“尽力还原普通观影大众对一部电影的平均看法”。这个主旨过去十年没变过,将来也不想变。
它并不是专家、影视从业人员或者资深人士对电影的看法,虽然这些看法会被豆瓣算在“普通观影大众”之内。所以有次听到“豆瓣电影评分不专业”的说法的时候,我的反应这是在说“大众不专业”,应该怪语文才是。个人认为汇总专家意见会是另一个很有价值的服务,但这个确实不是豆瓣评分的宗旨。
豆瓣简介
豆瓣(douban)是一家社区网站。网站由杨勃(网名“阿北”)[3]创立于2005年3月6日。该网站以书影音起家,提供关于书籍、电影、音乐等作品的信息,无论描述还是评论都由用户提供,是中国Web 2.0网站中具有特色的一个网站。
网站还提供书影音推荐、线下同城活动、小组话题交流等多种服务功能,它更像一个集品味系统(读书、电影、音乐)、表达系统(我读、我看、我听)和交流系统(同城、小组、友邻)于一体的创新网络服务,一直致力于帮助都市人群发现生活中有用的事物。2012年,豆瓣阅读上线,开始进入网上电子书版权领域。
(9)电影推荐算法扩展阅读:
豆瓣其他产品
1.豆瓣FM
豆瓣FM是你专属的个性化音乐收听工具,打开就能收听,可以用“红心”、“垃圾桶”或者“跳过” 告诉豆瓣FM你的喜好。豆瓣FM将根据你的操作和反馈,从海量曲库中自动发现并播出符合你音乐口味的歌曲,提供公共、私人和红心三种收听方式。在红心兆赫离线也能收听。
2.豆瓣读书- 豆瓣读书自2005年上线,已成为国内信息最全、用户数量最大且最为活跃的读书网站。我们专注于为用户提供全面、且精细化的读书服务,同时不断探索新的产品模式。到2012年豆瓣读书每个月有超过800万的来访用户,过亿的访问次数。
3.豆瓣阅读
豆瓣阅读是豆瓣读书2012年推出的数字阅读服务,支持 Web、iPhone、iPad、Android、Kindle等桌面和移动设备,自2012年5月7日作品商店上线以来,商店作品达600余部,用户评论3000余篇,有50万用户购买过付费或者免费作品。
豆瓣阅读的现有内容涵盖了小说、历史、科技、艺术与设计、生活等多种门类,定位为短篇作品和图书于一体的综合平台。
4.豆瓣音乐
豆瓣音乐是中国最大的音乐分享、评论、音乐人推广社区,拥有最完整的全球音乐信息库、最权威的用户音乐评论,和最具创造力的独立音乐人资源。汇集90多万音乐条目,包括小凡say、幼稚园杀手、MC光光、呆宝静等21000多位独立音乐人入驻,2011年全年平均每5分钟诞生一首原创音乐,覆盖粉丝超千万。
5.豆瓣同城
豆瓣同城是国内最大的线下活动信息发布平台,包括音乐/演出、话剧、展览、电影、讲座/沙龙、戏剧/曲艺、生活/聚会、体育、旅行、公益……专注于一线城市业余生活方式。
6.豆瓣小组
豆瓣小组于2005年上线,定位于“对同一个话题感兴趣的人的聚集地”,至今已有30多万个小组被用户创建,月独立用户超过5500万。内容包括娱乐、美容、时尚、旅行等生活的方方面面。用户在这里发布内容,同时也通过互动或浏览,发现更多感兴趣的内容。