导航:首页 > 电影天堂 > 协同过滤电影推荐

协同过滤电影推荐

发布时间：2022-06-22 14:02:34

A. 协同过滤的算法细分

这是最早应用协同过滤系统的设计，主要是解决Xerox公司在Palo Alto的研究中心资讯过载的问题。这个研究中心的员工每天会收到非常多的电子邮件却无从筛选分类，于是研究中心便发展这项实验性的邮件系统来帮助员工解决这项问题。其运作机制大致如下：
个人决定自己的感兴趣的邮件类型；个人旋即随机发出一项资讯需求，可预测的结果是会收到非常多相关的文件；从这些文件中个人选出至少三笔资料是其认为有用、会想要看的；系统便将之记录起来成为个人邮件系统内的过滤器，从此以后经过过滤的文件会最先送达信箱；以上是协同过滤最早的应用，接下来的里程碑为GroupLens。这个系统主要是应用在新闻的筛选上，帮助新闻的阅听者过滤其感兴趣的新闻内容，阅听者看过内容后给一个评比的分数，系统会将分数记录起来以备未来参考之用，假设前提是阅听者以前感兴趣的东西在未来也会有兴趣阅听，若阅听者不愿揭露自己的身分也可以匿名进行评分。和Tapestry不同之处有两点，首先，Tapestry专指一个点（如一个网站内、一个系统内）的过滤机制；GroupLens则是跨点跨系统的新闻过滤机制。再来，Tapestry不会将同一笔资料的评比总和起来；GroupLens会将同一笔资料从不同使用者得到的评比加总。
GroupLens具有以下特点：开放性：所有的新闻阅听者皆可使用，虽然系统委托Better Bit Bureau设计给分的系统，但若有不同的评分机制也适用于GroupLens。方便性：给分并不是一件困难的事情且沟通上非常方便，评分结果容易诠释。规模性：有可能发展成大规模的系统，一旦发展成大规模，储存空间与计算成本问题显得相当棘手。隐密性：如果使用者不想让别人知道他是谁，别人就不会知道。由此可以看出，现今网络各个推荐系统的雏形已然形成，在GroupLens之后还有性质相近的MovieLens，电影推荐系统；Ringo，音乐推荐系统；Video Recommender，影音推荐系统；以及Jster，笑话推荐系统等等。乃至于今日的YouTube、aNobii皆是相似性值得网络推荐平台，较不同的是经过时间推移，网络越来越发达，使用者越来越多，系统也发展得越来越严密。最著名的电子商务推荐系统应属亚马逊网络书店，顾客选择一本自己感兴趣的书籍，马上会在底下看到一行“Customer Who Bought This Item Also Bought”，亚马逊是在“对同样一本书有兴趣的读者们兴趣在某种程度上相近”的假设前提下提供这样的推荐，此举也成为亚马逊网络书店为人所津津乐道的一项服务，各网络书店也跟进做这样的推荐服务如台湾的博客来网络书店。另外一个著名的例子是Facebook的广告，系统根据个人资料、周遭朋友感兴趣的广告等等对个人提供广告推销，也是一项协同过滤重要的里程碑，和前二者Tapestry、GroupLens不同的是在这里虽然商业气息浓厚同时还是带给使用者很大的方便。以上为三项协同过滤发展上重要的里程碑，从早期单一系统内的邮件、文件过滤，到跨系统的新闻、电影、音乐过滤，乃至于今日横行互联网的电子商务，虽然目的不太相同，但带给使用者的方便是大家都不能否定的。

B. 推荐系统的主要推荐方法

基于内容的推荐（Content-based Recommendation）是信息过滤技术的延续与发展，它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中，项目或对象是通过相关的特征的属性来定义，系统基于用户评价对象的特征，学习用户的兴趣，考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法，常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据，用户资料模型可能随着用户的偏好改变而发生变化。
基于内容推荐方法的优点是：1）不需要其它用户的数据，没有冷开始问题和稀疏问题。2）能为具有特殊兴趣爱好的用户进行推荐。3）能推荐新的或不是很流行的项目，没有新项目问题。4）通过列出推荐项目的内容特征，可以解释为什么推荐那些项目。5）已有比较好的技术，如关于分类学习方面的技术已相当成熟。
缺点是要求内容能容易抽取成有意义的特征，要求特征内容有良好的结构性，并且用户的口味必须能够用内容特征形式来表达，不能显式地得到其它用户的判断情况。协同过滤推荐（Collaborative Filtering Recommendation）技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术，利用用户的历史喜好信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度，系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求，能处理非结构化的复杂对象，如音乐、电影。
协同过滤是基于这样的假设：为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户，然后将他们感兴趣的内容推荐给此用户。其基本思想非常易于理解，在日常生活中，我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来，基于其他用户对某一内容的评价来向目标用户进行推荐。
基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的，而且是自动的即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的，不需要用户努力地找到适合自己兴趣的推荐信息，如填写一些调查表格等。
和基于内容的过滤方法相比，协同过滤具有如下的优点：1）能够过滤难以进行机器自动内容分析的信息，如艺术品，音乐等。2）共享其他人的经验，避免了内容分析的不完全和不精确，并且能够基于一些复杂的，难以表述的概念（如信息质量、个人品味）进行过滤。3）有推荐新信息的能力。可以发现内容上完全不相似的信息，用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别，基于内容的过滤推荐很多都是用户本来就熟悉的内容，而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。4）能够有效的使用其他相似用户的反馈信息，较少用户的反馈量，加快个性化学习的速度。
虽然协同过滤作为一种典型的推荐技术有其相当的应用，但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题（Sparsity）和可扩展问题（Scalability）。基于关联规则的推荐（Association Rule-based Recommendation）是以关联规则为基础，把已购商品作为规则头，规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性，在零售业中已经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y，其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。
算法的第一步关联规则的发现最为关键且最耗时，是算法的瓶颈，但可以离线进行。其次，商品名称的同义性问题也是关联规则的一个难点。由于各种推荐方法都有优缺点，所以在实际中，组合推荐（Hybrid Recommendation）经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果，然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法，但在某一具体问题中并不见得都有效，组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。
在组合方式上，有研究人员提出了七种组合思路：1）加权（Weight）：加权多种推荐技术结果。2）变换（Switch）：根据问题背景和实际情况或要求决定变换采用不同的推荐技术。3）混合（Mixed）：同时采用多种推荐技术给出多种推荐结果为用户提供参考。4）特征组合（Feature combination）：组合来自不同推荐数据源的特征被另一种推荐算法所采用。5）层叠（Cascade）：先用一种推荐技术产生一种粗糙的推荐结果，第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。6）特征扩充（Feature augmentation）：一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。7）元级别（Meta-level）：用一种推荐方法产生的模型作为另一种推荐方法的输入。

C. 学IT的，写了一个电影推荐系统，但是为什么评分预测值大于五

全文以“预测电影评分”例子展开

r(i,j)=0则表明user_j没有对movie_i 没有评分，

推荐系统要做的就是通过预测user_j对这些movie {i|r(i,j)=0}的评分来给user_j 推荐其可能会喜欢的电影<预测评分较高的movie>

=======================================二、基于内容的推荐=======================================

对每个movie_i引入特征x(i)=(x1, x2)，这种特征可能表明user对movie类型的偏好：浪漫or动作等

对于每个user引入一个参数theta，然后对评分矩阵的每列(对应一个user)做线性回归，数据是{ (x(i), y(i,j)) |r(i,j)=1，for some j all i}

像机器学习一样，x(i)添加个1变量x(i)=(1, x1, x2)

那么对于未评分的movie_t，我们可以使用线性回归训练的参数theta与对应特征x(t)做内积来得到其预测评分

对每个用户都训练一个参数theta_j，优化模型如下：

优化算法：注意正则项是不约束x(i)=(1, x1, x2)中1对应的参数theta的第一项theta0，所以k=0与k=1,2分别对待

=======================================三、协同过滤=======================================

现在换个角度：如果知道theta for all user j，如何来预测x(i) = (x1, x2) all i

仍然可以使用线性回归，为训练每个x(i)，需要评分矩阵的第i行数据{ (x(i), y(i,j)) |r(i,j)=1，for some i all j}

theta_j = (0, theta1, theta2) ；theta1=5说明user_j喜欢romance类movie， theta2=5说明user_j喜欢action类movie，只能有一个等于5哦，

我觉得也可以是：theta_j = (0, 4, 1) ；喜欢romance 4 action 1.

对应的优化：

协同过滤：交替优化theta与x

=========================================四、协同过滤算法=======================================

优化：

优化：注意去掉了theta和x的添加项

=========================================五、实现细节补充=======================================

实现细节：

如果有user没有对任何电影评分或者所有评分的电影都是0分，那么所学习到的参数是零向量，

则预测都是0值，这是不合理的。通过将评分矩阵减去其行均值再进行线性回归来“避免”这种情况

=========================================六、一点思考==========================================

协同过滤那块，同时优化theta、x，这样得到的theta、x还有特定的意义<比如：x是否还表征对影视类型的喜爱与否>没有？

回归中，在x数据上不添加1-feature是不是因为后来引入的平均值化；如果不是，那会对结果有什么影响？

用x-feature来表征一个movie，x-feature的各分量的可解释性；应该会有一部分user应为演员的缘故有一些"偏爱"。

这里，讲的"基于内容的推荐"与"协同过滤"跟以前对这两个词的认识/所指内容不同，查清楚、搞明白。

这周还会再更一篇关于此节课的算法实现，会对上述部分问题做出回答。

阅读全文

与协同过滤电影推荐相关的资料

热点内容

after3免费完整下载发布：2024-08-19 09:16:24 浏览：946

监狱暴力犯罪电影发布：2024-08-19 09:12:24 浏览：568

韩国电影爱情片打电话邂逅发布：2024-08-19 09:11:15 浏览：817

北京送快递小哥电影发布：2024-08-19 09:09:01 浏览：640

金希贞的全部韩剧电影在线观看发布：2024-08-19 09:06:24 浏览：285

以前有部电影里面有个女鬼发布：2024-08-19 09:05:28 浏览：548

木星上行国语版在线免费观看发布：2024-08-19 09:05:07 浏览：421

《飞夺泸定桥》电影发布：2024-08-19 09:03:15 浏览：478

1905下载的视频在哪个文件夹发布：2024-08-19 09:01:27 浏览：972

很早的一部韩国情爱电影男女主在乡下邂逅，男的最后死了发布：2024-08-19 08:57:29 浏览：4

美片发布：2024-08-19 08:55:16 浏览：150

外国一个电影骑着发火的摩托发布：2024-08-19 08:54:50 浏览：1000

晚上我经常和我的父母一块看电视英语发布：2024-08-19 08:50:25 浏览：631

韩国阿强和阿珍是什么电影发布：2024-08-19 08:47:22 浏览：312

看电影九排发布：2024-08-19 08:45:15 浏览：308

天主教宗教题材电影发布：2024-08-19 08:44:03 浏览：417

二战电影虎虎虎国语版发布：2024-08-19 08:43:57 浏览：332

战斗机电影发布：2024-08-19 08:41:22 浏览：937

成龙教外国小孩功夫电影叫什么发布：2024-08-19 08:40:18 浏览：672

看电影怎么英文怎么翻译软件发布：2024-08-19 08:34:41 浏览：77