导航:首页 > 电影天堂 > 电影推荐用的什么算法

电影推荐用的什么算法

发布时间：2022-11-07 02:41:56

『壹』推荐算法简介

写在最前面：本文内容主要来自于书籍《推荐系统实践》和《推荐系统与深度学习》。

推荐系统是目前互联网世界最常见的智能产品形式。从电子商务、音乐视频网站，到作为互联网经济支柱的在线广告和新颖的在线应用推荐，到处都有推荐系统的身影。推荐算法是推荐系统的核心，其本质是通过一定的方式将用户和物品联系起来，而不同的推荐系统利用了不同的方式。

推荐系统的主要功能是以个性化的方式帮助用户从极大的搜索空间中快速找到感兴趣的对象。因此，目前所用的推荐系统多为个性化推荐系统。个性化推荐的成功应用需要两个条件：

在推荐系统的众多算法中，基于协同的推荐和基于内容的推荐在实践中得到了最广泛的应用。本文也将从这两种算法开始，结合时间、地点上下文环境以及社交环境，对常见的推荐算法做一个简单的介绍。

基于内容的算法的本质是对物品内容进行分析，从中提取特征，然后基于用户对何种特征感兴趣来推荐含有用户感兴趣特征的物品。因此，基于内容的推荐算法有两个最基本的要求：

下面我们以一个简单的电影推荐来介绍基于内容的推荐算法。

现在有两个用户A、B和他们看过的电影以及打分情况如下：

其中问好（?）表示用户未看过。用户A对《银河护卫队》《变形金刚》《星际迷航》三部科幻电影都有评分，平均分为 4 .7 分（ (5+4+5 ) / 3=4.7 ）；对《三生三世》《美人鱼》《北京遇上西雅图》三部爱情电影评分平均分为 2.3 分（ ( 3十2+2 ) /3=2.3 ）。现在需要给A推荐电影，很明显A更倾向于科幻电影，因此推荐系统会给A推荐独立日。而对于用户B，通过简单的计算我们可以知道更喜欢爱情电影，因此给其推荐《三生三世》。当然，在实际推荐系统中，预测打分比这更加复杂些，但是其原理是一样的。

现在，我们可以将基于内容的推荐归纳为以下四个步骤：

通过上面四步就能快速构建一个简单的推荐系统。基于内容的推荐系统通常简单有效，可解释性好，没有物品冷启动问题。但他也有两个明显的缺点：

最后，顺便提一下特征提取方法：对于某些特征较为明确的物品，一般可以直接对其打标签，如电影类别。而对于文本类别的特征，则主要是其主题情感等，则些可以通过tf-idf或LDA等方法得到。

基于协同的算法在很多地方也叫基于邻域的算法，主要可分为两种：基于用户的协同算法和基于物品的协同算法。

啤酒和尿布的故事在数据挖掘领域十分有名，该故事讲述了美国沃尔玛超市统计发现啤酒和尿布一起被购买的次数非常多，因此将啤酒和尿布摆在了一起，最后啤酒和尿布的销量双双增加了。这便是一个典型的物品协同过滤的例子。

基于物品的协同过滤指基于物品的行为相似度（如啤酒尿布被同时购买）来进行物品推荐。该算法认为，物品A和物品B具有很大相似度是因为喜欢物品A的用户大都也喜欢物品B。

基于物品的协同过滤算法主要分为两步：

基于物品的协同过滤算法中计算物品相似度的方法有以下几种：
（1）基于共同喜欢物品的用户列表计算。

此外，John S. Breese再其论文中还提及了IUF（Inverse User Frequence，逆用户活跃度）的参数，其认为活跃用户对物品相似度的贡献应该小于不活跃的用户，应该增加IUF参数来修正物品相似度的公式：

上面的公式只是对活跃用户做了一种软性的惩罚，但对于很多过于活跃的用户，比如某位买了当当网80%图书的用户，为了避免相似度矩阵过于稠密，我们在实际计算中一般直接忽略他的兴趣列表，而不将其纳入到相似度计算的数据集中。

（2）基于余弦相似度计算。

（3）热门物品的惩罚。
从上面（1）的相似度计算公式中，我们可以发现当物品 i 被更多人购买时，分子中的 N(i) ∩ N(j) 和分母中的 N(i) 都会增长。对于热门物品，分子 N(i) ∩ N(j) 的增长速度往往高于 N(i)，这就会使得物品 i 和很多其他的物品相似度都偏高，这就是 ItemCF 中的物品热门问题。推荐结果过于热门，会使得个性化感知下降。以歌曲相似度为例，大部分用户都会收藏《小苹果》这些热门歌曲，从而导致《小苹果》出现在很多的相似歌曲中。为了解决这个问题，我们对于物品 i 进行惩罚，例如下式，当α∈(0, 0.5) 时，N(i) 越小，惩罚得越厉害，从而使热门物品相关性分数下降（博主注：这部分未充分理解）：

此外，Kary pis在研究中发现如果将ItemCF的相似度矩阵按最大值归一化，可以提高推荐的准确率。其研究表明，如果已经得到了物品相似度矩阵w，那么可以用如下公式得到归一化之后的相似度矩阵w'：

归一化的好处不仅仅在于增加推荐的准确度，它还可以提高推荐的覆盖率和多样性。一般来说，物品总是属于很多不同的类，每一类中的物品联系比较紧密。假设物品分为两类——A和B， A类物品之间的相似度为0.5， B类物品之间的相似度为0.6，而A类物品和B类物品之间的相似度是0.2。在这种情况下，如果一个用户喜欢了5个A类物品和5个B类物品，用ItemCF给他进行推荐，推荐的就都是B类物品，因为B类物品之间的相似度大。但如果归一化之后， A类物品之间的相似度变成了1， B类物品之间的相似度也是1，那么这种情况下，用户如果喜欢5个A类物品和5个B类物品，那么他的推荐列表中A类物品和B类物品的数目也应该是大致相等的。从这个例子可以看出，相似度的归一化可以提高推荐的多样性。

那么，对于两个不同的类，什么样的类其类内物品之间的相似度高，什么样的类其类内物品相似度低呢？一般来说，热门的类其类内物品相似度一般比较大。如果不进行归一化，就会推荐比较热门的类里面的物品，而这些物品也是比较热门的。因此，推荐的覆盖率就比较低。相反，如果进行相似度的归一化，则可以提高推荐系统的覆盖率。

最后，利用物品相似度矩阵和用户打过分的物品记录就可以对一个用户进行推荐评分：

基于用户的协同算法与基于物品的协同算法原理类似，只不过基于物品的协同是用户U购买了A物品，会计算经常有哪些物品与A一起购买（也即相似度），然后推荐给用户U这些与A相似的物品。而基于用户的协同则是先计算用户的相似性（通过计算这些用户购买过的相同的物品），然后将这些相似用户购买过的物品推荐给用户U。

基于用户的协同过滤算法主要包括两个步骤：

步骤（1）的关键是计算用户的兴趣相似度，主要是利用用户的行为相似度计算用户相似度。给定用户 u 和 v，N(u) 表示用户u曾经有过正反馈（譬如购买）的物品集合，N(v) 表示用户 v 曾经有过正反馈的物品集合。那么我们可以通过如下的 Jaccard 公式简单的计算 u 和 v 的相似度：

或通过余弦相似度：

得到用户之间的相似度之后，UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。如下的公式度量了UserCF算法中用户 u 对物品 i 的感兴趣程度：

首先回顾一下UserCF算法和ItemCF算法的推荐原理：UserCF给用户推荐那些和他有共同兴趣爱好的用户喜欢的物品，而ItemCF给用户推荐那些和他之前喜欢的物品具有类似行为的物品。

（1）从推荐场景考虑
首先从场景来看，如果用户数量远远超过物品数量，如购物网站淘宝，那么可以考虑ItemCF，因为维护一个非常大的用户关系网是不容易的。其次，物品数据一般较为稳定，因此物品相似度矩阵不必频繁更新，维护代价较小。

UserCF的推荐结果着重于反应和用户兴趣相似的小群体的热点，而ItemCF的推荐结果着重于维系用户的历史兴趣。换句话说，UserCF的推荐更社会化，反应了用户所在小型兴趣群体中物品的热门程度，而ItemCF的推荐更加个性化，反应了用户自己的个性传承。因此UserCF更适合新闻、微博或微内容的推荐，而且新闻内容更新频率非常高，想要维护这样一个非常大而且更新频繁的表无疑是非常难的。

在新闻类网站中，用户的兴趣爱好往往比较粗粒度，很少会有用户说只看某个话题的新闻，而且往往某个话题也不是每天都会有新闻。个性化新闻推荐更强调新闻热点，热门程度和时效性是个性化新闻推荐的重点，个性化是补充，所以 UserCF 给用户推荐和他有相同兴趣爱好的人关注的新闻，这样在保证了热点和时效性的同时，兼顾了个性化。

（2）从系统多样性（也称覆盖率，指一个推荐系统能否给用户提供多种选择）方面来看，ItemCF的多样性要远远好于UserCF，因为UserCF更倾向于推荐热门物品。而ItemCF具有较好的新颖性，能够发现长尾物品。所以大多数情况下，ItemCF在精度上较小于UserCF，但其在覆盖率和新颖性上面却比UserCF要好很多。

在介绍本节基于矩阵分解的隐语义模型之前，让我们先来回顾一下传统的矩阵分解方法SVD在推荐系统的应用吧。

基于SVD矩阵分解在推荐中的应用可分为如下几步：

SVD在计算前会先把评分矩阵 A 缺失值补全，补全之后稀疏矩阵 A 表示成稠密矩阵，然后将分解成 A' = U∑V T 。但是这种方法有两个缺点：（1）补成稠密矩阵后需要耗费巨大的储存空间，对这样巨大的稠密矩阵进行储存是不现实的；（2）SVD的计算复杂度很高，对这样大的稠密矩阵中进行计算式不现实的。因此，隐语义模型就被发明了出来。

更详细的SVD在推荐系统的应用可参考奇异值分解SVD简介及其在推荐系统中的简单应用。

隐语义模型（Latent Factor Model）最早在文本挖掘领域被提出，用于找到文本的隐含语义。相关的算法有LSI，pLSA，LDA和Topic Model。本节将对隐语义模型在Top-N推荐中的应用进行详细介绍，并通过实际的数据评测该模型。

隐语义模型的核心思想是通过隐含特征联系用户兴趣和物品。让我们通过一个例子来理解一下这个模型。

现有两个用户，用户A的兴趣涉及侦探小说、科普图书以及一些计算机技术书，而用户B的兴趣比较集中在数学和机器学习方面。那么如何给A和B推荐图书呢？

我们可以对书和物品的兴趣进行分类。对于某个用户，首先得到他的兴趣分类，然后从分类中挑选他可能喜欢的物品。简言之，这个基于兴趣分类的方法大概需要解决3个问题：

对于第一个问题的简单解决方案是找相关专业人员给物品分类。以图书为例，每本书出版时，编辑都会给出一个分类。但是，即使有很系统的分类体系，编辑给出的分类仍然具有以下缺点：（1）编辑的意见不能代表各种用户的意见；（2）编辑很难控制分类的细粒度；（3）编辑很难给一个物品多个分类；（4）编辑很难给一个物品多个分类；（5）编辑很难给出多个维度的分类；（6）编辑很难决定一个物品在某一个类别中的权重。

为了解决上述问题，研究员提出可以从数据出发，自动找到那些分类，然后进行个性化推荐。隐语义模型由于采用基于用户行为统计的自动聚类，较好地解决了上面提出的5个问题。

LFM将矩阵分解成2个而不是3个：

推荐系统中用户和物品的交互数据分为显性反馈和隐性反馈数据。隐式模型中多了一个置信参数，具体涉及到ALS（交替最小二乘法，Alternating Least Squares）中对于隐式反馈模型的处理方式——有的文章称为“加权的正则化矩阵分解”：

一个小细节：在隐性反馈数据集中，只有正样本（正反馈）没有负反馈（负样本），因此如何给用户生成负样本来进行训练是一个重要的问题。Rong Pan在其文章中对此进行了探讨，对比了如下几种方法：

用户行为很容易用二分图表示，因此很多图算法都可以应用到推荐系统中。基于图的模型（graph-based model）是推荐系统中的重要内容。很多研究人员把基于领域的模型也称为基于图的模型，因为可以把基于领域的模型看作基于图的模型的简单形式。

在研究基于图的模型之前，需要将用户行为数据表示成图的形式。本节的数据是由一系列用户物品二元组 (u, i) 组成的，其中 u 表示用户对物品 i 产生过行为。

令 G(V, E) 表示用户物品二分图，其中 V=V U UV I 由用户顶点 V U 和物品节点 V I 组成。对于数据集中每一个二元组 (u, i) ，图中都有一套对应的边 e(v u , v i )，其中 v u ∈V U 是用户对应的顶点，v i ∈V I 是物品i对应的顶点。如下图是一个简单的物品二分图，其中圆形节点代表用户，方形节点代表物品，用户物品的直接连线代表用户对物品产生过行为。比如下图中的用户A对物品a、b、d产生过行为。

度量图中两个顶点之间相关性的方法很多，但一般来说图中顶点的相关性主要取决于下面3个因素：

而相关性高的一对顶点一般具有如下特征：

举个例子，如下图，用户A和物品c、e没有边直连，但A可通过一条长度为3的路径到达c，而Ae之间有两条长度为3的路径。那么A和e的相关性要高于顶点A和c，因而物品e在用户A的推荐列表中应该排在物品c之前，因为Ae之间有两条路径。其中，（A,b,C,e）路径经过的顶点的出度为（3，2，2，2），而 (A,d,D,e) 路径经过了一个出度比较大的顶点D，所以 (A,d,D,e) 对顶点A与e之间相关性的贡献要小于（A,b,C,e）。

基于上面3个主要因素，研究人员设计了很多计算图中顶点相关性的方法，本节将介绍一种基于随机游走的PersonalRank算法。

假设要给用户u进行个性化推荐，可以从用户u对应的节点 v u 开始在用户物品二分图上进行随机游走。游走到任一节点时，首先按照概率α决定是继续游走还是停止这次游走并从 v u 节点重新开始游走。若决定继续游走，则从当前节点指向的节点中按照均匀分布随机选择一个节点作为游走下次经过的节点。这样，经过很多次随机游走后，每个物品被访问到的概率会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。

上述算法可以表示成下面的公式：

虽然通过随机游走可以很好地在理论上解释PersonalRank算法，但是该算法在时间复杂度上有明显的缺点。因为在为每个用户进行推荐时，都需要在整个用户物品二分图上进行迭代，知道所有顶点的PR值都收敛。这一过程的时间复杂度非常高，不仅无法在线进行实时推荐，离线计算也是非常耗时的。

有两种方法可以解决上面PersonalRank时间复杂度高的问题：
（1）减少迭代次数，在收敛之前停止迭代。但是这样会影响最终的精度。

（2）从矩阵论出发，重新涉及算法。另M为用户物品二分图的转移概率矩阵，即：

网络社交是当今社会非常重要甚至可以说是必不可少的社交方式，用户在互联网上的时间有相当大的一部分都用在了社交网络上。

当前国外最著名的社交网站是Facebook和Twitter，国内的代表则是微信/QQ和微博。这些社交网站可以分为两类：

需要指出的是，任何一个社交网站都不是单纯的社交图谱或兴趣图谱。如QQ上有些兴趣爱好群可以认识不同的陌生人，而微博中的好友也可以是现实中认识的。

社交网络定义了用户之间的联系，因此可以用图定义社交网络。我们用图 G(V,E,w) 定义一个社交网络，其中V是顶点集合，每个顶点代表一个用户，E是边集合，如果用户va和vb有社交网络关系，那么就有一条边 e(v a , v b ) 连接这两个用户，而 w(v a , v b )定义了边的权重。一般来说，有三种不同的社交网络数据：

和一般购物网站中的用户活跃度分布和物品流行度分布类似，社交网络中用户的入度（in degree，表示有多少人关注）和出度（out degree，表示关注多少人）的分布也是满足长尾分布的。即大部分人关注的人都很少，被关注很多的人也很少。

给定一个社交网络和一份用户行为数据集。其中社交网络定义了用户之间的好友关系，而用户行为数据集定义了不同用户的历史行为和兴趣数据。那么最简单的算法就是给用户推荐好友喜欢的物品集合。即用户u对物品i的兴趣 p ui 可以通过如下公式计算。

用户u和用户v的熟悉程度描述了用户u和用户在现实社会中的熟悉程度。一般来说，用户更加相信自己熟悉的好友的推荐，因此我们需要考虑用户之间的熟悉度。下面介绍3中衡量用户熟悉程度的方法。

（1）对于用户u和用户v，可以使用共同好友比例来计算他们的相似度：

上式中 out(u) 可以理解为用户u关注的用户合集，因此 out(u) ∩ out(v) 定义了用户u、v共同关注的用户集合。

（2）使用被关注的用户数量来计算用户之间的相似度，只要将公式中的 out(u) 修改为 in(u)：

in(u) 是指关注用户u的集合。在无向社交网络中，in(u)和out(u)是相同的，而在微博这种有向社交网络中，这两个集合的含义就不痛了。一般来说，本方法适合用来计算微博大V之间的相似度，因为大v往往被关注的人数比较多；而方法（1）适用于计算普通用户之间的相似度，因为普通用户往往关注行为比较丰富。

（3）除此之外，还可以定义第三种有向的相似度：这个相似度的含义是用户u关注的用户中，有多大比例也关注了用户v：

这个相似度有一个缺点，就是在该相似度下所有人都和大v有很大的相似度，这是因为公式中的分母并没有考虑 in(v) 的大小，所以可以把 in(v) 加入到上面公式的分母，来降低大v与其他用户的相似度：

上面介绍了3种计算用户之间相似度（或称熟悉度）的计算方法。除了熟悉程度，还需要考虑用户之间的兴趣相似度。我们和父母很熟悉，但很多时候我们和父母的兴趣确不相似，因此也不会喜欢他们喜欢的物品。因此，在度量用户相似度时，还需要考虑兴趣相似度，而兴趣相似度可以通过和UserCF类似的方法度量，即如果两个用户喜欢的物品集合重合度很高，两个用户的兴趣相似度很高。

最后，我们可以通过加权的形式将两种权重合并起来，便得到了各个好有用户的权重了。

有了权重，我们便可以针对用户u挑选k个最相似的用户，把他们购买过的物品中，u未购买过的物品推荐给用户u即可。打分公式如下：

其中 w' 是合并后的权重，score是用户v对物品的打分。

node2vec的整体思路分为两个步骤：第一个步骤是随机游走（random walk），即通过一定规则随机抽取一些点的序列；第二个步骤是将点的序列输入至word2vec模型从而得到每个点的embedding向量。

随机游走在前面基于图的模型中已经介绍过，其主要分为两步：（1）选择起始节点；（2）选择下一节点。起始节点选择有两种方法：按一定规则抽取一定量的节点或者以图中所有节点作为起始节点。一般来说会选择后一种方法以保证所有节点都会被选取到。

在选择下一节点方法上，最简单的是按边的权重来选择，但在实际应用中需要通过广度优先还是深度优先的方法来控制游走范围。一般来说，深度优先发现能力更强，广度优先更能使社区内（较相似）的节点出现在一个路径里。

斯坦福大学Jure Leskovec教授给出了一种可以控制广度优先或者深度优先的方法。

以上图为例，假设第一步是从t随机游走到v，这时候我们要确定下一步的邻接节点。本例中，作者定义了p和q两个参数变量来调节游走，首先计算其邻居节点与上一节点t的距离d，根据下面的公式得到α：

一般从每个节点开始游走5~10次，步长则根据点的数量N游走根号N步。如此便可通过random walk生成点的序列样本。

得到序列之后，便可以通过word2vec的方式训练得到各个用户的特征向量，通过余弦相似度便可以计算各个用户的相似度了。有了相似度，便可以使用基于用户的推荐算法了。

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣，因此大量的用户行为数据就成为推荐系统的重要组成部分和先决条件。如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统，就是冷启动问题。

冷启动问题主要分为三类：

针对用户冷启动，下面给出一些简要的方案：
（1）有效利用账户信息。利用用户注册时提供的年龄、性别等数据做粗粒度的个性化；
（2）利用用户的社交网络账号登录（需要用户授权），导入用户在社交网站上的好友信息，然后给用户推荐其好友喜欢的物品；
（3）要求用户在登录时对一些物品进行反馈，手机用户对这些物品的兴趣信息，然后给用推荐那些和这些物品相似的物品；
（4）提供非个性化推荐。非个性化推荐的最简单例子就是热门排行榜，我们可以给用户推荐热门排行榜，然后等到用户数据收集到一定的时候，在切换为个性化推荐。

对于物品冷启动，可以利用新加入物品的内容信息，将它们推荐给喜欢过和他们相似的物品的用户。

对于系统冷启动，可以引入专家知识，通过一定高效的方式快速建立起物品的相关度表。

在上面介绍了一些推荐系统的基础算法知识，这些算法大都是比较经典且现在还在使用的。但是需要注意的是，在实践中，任何一种推荐算法都不是单独使用的，而是将多种推荐算法结合起来，也就是混合推荐系统，但是在这里并不准备介绍，感兴趣的可以查阅《推荐系统》或《推荐系统与深度学习》等书籍。此外，在推荐中非常重要的点击率模型以及基于矩阵的一些排序算法在这里并没有提及，感兴趣的也可自行学习。

虽然现在用的很多算法都是基于深度学习的，但是这些经典算法能够让我们对推荐系统的发展有一个比较好的理解，同时，更重要的一点——“推陈出新”，只有掌握了这些经典的算法，才能提出或理解现在的一些更好地算法。

『贰』推荐算法综述

推荐系统的目的是通过推荐计算帮助用户从海量的数据对象中选择出用户最有可能感兴趣的对象。涉及三个基本内容:目标用户、待推荐项目以及推荐算法，基本流程为：描述为用户模型构建、项目模型建立以及推荐算法处理三个基本流程；

为了能够为用户提供准确的推荐服务，推荐系统需要为用户构建用户模型，该模型能够反映用户动态变化的多层次兴趣偏好，有助于推荐系统更好的理解用户的特征和需求。构建用户模型通常需要经历三个流程:用户数据收集，用户模型表示以及用户模型更新。

（1）用户数据收集：用户数据是用户模型构建的基础，用户数据收集的方式一般有显示方式获取和隐式方式获取两种。
显示方式获取的数据是用户特征属性和兴趣偏好的直接反映，所获得的信息数据是较为客观全面的，比如用户在注册时包含的性别、年龄等信息可以直接表示出用户的基本人口学信息和兴趣信息，用户对项目的评分可以反映出用户的偏好。但显示获取的方式最大的缺陷是其实时性较差，并且具有很强的侵袭性。
隐式方式获取用户数据是在不干扰用户的前提下，采集用户的操作行为数据，并从中挖掘出用户的兴趣偏好。用户的很多操作行为都能反映出用户的喜好，比如用户浏览网页的速度、用户查询的关键字等，推荐系统在不影响用户使用系统的情况下，通过行为日志挖掘出用户的偏好。隐式获取方式由于具有较好的实时性和灵活性和较弱的侵袭性，己经成为推荐系统中主要的用户数据采集方式。

（2）用户模型表示：用户模型是从用户数据中归纳出的推荐系统所理解的用户兴趣偏好的结构化形式。
a 基于内容关键词表示；
b 基于评分矩阵表示；
（3）用户模型更新：推荐系统面临的问题之一是兴趣漂移，兴趣漂移的根本原因在于用户的兴趣会随时间发生改变。为了使用户模型够准确的代表用户的兴趣，推荐系统需要根据最新的用户数据对用户模型进行更新。

目前项目模型主要通过基于内容和基于分类这两类方式来建立。基于内容的方式是以项目本身内容为基础，向量空间模型表示是目前御用最为广泛的基于内容的方式。

基于分类的方式是根据项目的内容或者属性，将项目划分到一个或者几个类别中，利用类别信息来表示项目，这种方法可以很方便地将项目推荐给对某一类别感兴趣的用户。常见的分类算法有朴素贝叶斯算法和KNN分类算法等。

推荐系统实现的核心是其使用的推荐算法。针对不同的使用环境及其系统的数据特征，选取不同的推荐算法，可以在本质上提高推荐系统的推荐效果。根据不同的分类标准，推荐算法出现了有很多不同的分类方法，本文采用了比较普遍的分类方法。

推荐系统通常被分为基于内容的推荐算法、协同过滤推荐算法以及混合模型推荐算法三大类。

基于内容的推荐算法，其本质是对物品或用户的内容进行分析建立属性特征。系统根据其属性特征，为用户推荐与其感兴趣的属性特征相似的信息。算法的主要思想是将与用户之前感兴趣的项目的内容相似的其他项目推荐给用户。

CBF（Content-based Filter Recommendations）算法的主要思想是将与用户之前感兴趣的项目的内容相似的其他项目推荐给用户，比如用户喜欢Java开发的书籍，则基于内容过滤算法将用户尚未看过的其他Java开发方面的书籍推荐给用户。因此，该推荐算法的关键部分是计算用户模型和项目模型之间的内容相似度，相似度的计算通常采用余弦相似性度量。

基于内容的推荐过程一般分为以下三个模块:
（1）特征提取模块:由于大多数物品信息是非结构化的，需要为每个物品(如产品、网页、新闻、文档等)抽取出一些特征属性，用某一恰当的格式表示，以便下一阶段的处理。如将新闻信息表示成关键词向量，此种表示形式将作为下一模块(属性特征学习模块)的输入。

（2）特征学习模块:通过用户的历史行为数据特征，机器学习出用户的兴趣特征模型。本模块负责收集代表用户喜好的数据信息，并泛化这些数据，用于构建用户特征模型。通常使用机器学习的泛化策略，来将用户喜好表示为兴趣模型。

（3）推荐模块:该模块利用上一阶段得到的用户特征模型，通过对比用户兴趣模型与带推荐物品的特征相似度，为用户推荐与其兴趣相似度较高的物品，从而达到个性化推荐的目的。该模块一般采用计算用户兴趣向量与待推荐物品特征向量的相似度来进行排序，将相似度较高的物品推荐给相应用户。计算相似度有多种方法，如皮尔逊相关系数法、夹角余弦法、Jaccard相关系数法等。

协同过滤算法（Collaborative Filtering）是于内容无关的，即不需要额外获取分析用户或物品的内容属性特征。是基于用户历史行为数据进行推荐的算法。其通过分析用户与物品间的联系来寻找新的用户与物品间的相关性。

该算法算法通常有两个过程，一个过程是预测，另一个过程是推荐。主流的协同过滤算法包括三种:基于用户的协同过滤(User-Based Collaborative Filtering,UBCF)、基于项目的协同过滤(Item-Based Collaborative Filtering, IBCF)和基于模型的协同过滤(Model-Based Collaborative Filtering, MBCF)

（1）基于用户的协同过滤算法
基于用户的协同过滤推荐算法，先通过用户历史行为数据找到和用户u相似的用户，将这些用户感兴趣的且u没有点击过的物品推荐给用户。
算法主要包括以下两个步骤:
(1)找到与目标用户喜好相似的邻居用户集合。
(2)在邻居用户集合中，为用户推荐其感兴趣的物品。

UBCF的基本思想是将与当前用户有相同偏好的其他用户所喜欢的项目推荐给当前用户。一个最典型的例子就是电影推荐，当我们不知道哪一部电影是我们比较喜欢的时候，通常会询问身边的朋友是否有好的电影推荐，询问的时候我们习惯于寻找和我们品味相同或相似的朋友。

（2）基于物品的协同过滤算法
基于物品的协同过滤算法(Item-based Collaborative Filtering)其主要思想是，为用户推荐那些与他们之前喜欢或点击过的物品相似的物品。不过基于物品的协同过滤算法并不是利用物品的内容属性特征来计算物品之间的相似度的。该类算法是利用用户的历史行为数据计算待推荐物品之间的相似度。在该类算法中，如果喜欢物品A的用户大都也喜欢物品B，那么就可以认为物品A和物品B之间的相似度很高。
算法分为以下两个步骤:
(1)根据用户历史行为数据，计算物品间的相似度。
(2)利用用户行为和物品间的相似度为用户生成推荐列表。

IBCF算法是亚马逊在2003年发表的论文中首次提出，该算法的基本思想是根据所有用户的历史偏好数据计算项目之间的相似性，然后把和用户喜欢的项目相类似的并且用户还未选择的其他项目推荐给用户，例如，假设用户喜欢项目a，则用户喜欢与项目a高度相似且还未被用户选择的项目b的可能性非常大，因此将项目b推荐给用户。

UBCF和IBCF都属于基于内存的协同过滤算法，这类算法由于充分发挥了用户的评分数据，形成全局推荐，因此具有较高的推荐质量。但随着用户和项目的规模增长，这类算法的计算时间大幅上升，使得系统的性能下降。针对该问题，研究人员提出将数据挖掘中的模型和CF算法结合，提出了基于模型的协同过滤算法(MBCF) 。

MBCF算法利用用户历史评分数据建立模型，模型建立的算法通常有奇异值分解、聚类算法、贝叶斯网络、关联规则挖掘等，且通常是离线完成。由于MBCF通常会对原始评分值做近似计算，通过牺牲一定的准确性来换取系统性能，因此MBCF的推荐质量略差于UBCF和IBCF。

由于基于内容的推荐算法和协同过滤推荐算法都有其各自的局限性，混合推荐算法应运而生。混合推荐算法根据不同的应用场景，有多
种不同的结合方式，如加权、分层和分区等。

目前使用的混合推荐算法的思想主要可以分成以下几类:
（1）多个推荐算法独立运行，获取的多个推荐结果以一定的策略进行混合，例如为每一个推荐结果都赋予一个权值的加权型混合推荐算法和将各个推荐结果取TOP-N的交叉混合推荐算法。

（2）将前一个推荐方法产出的中间结果或者最终结果输出给后一个推荐方法，层层递进，推荐结果在此过程中会被逐步优选，最终得到一个精确度比较高的结果。

（3）使用多种推荐算法，将每种推荐算法计算过程中产生的相似度值通过权重相加，调整每个推荐算法相似度值的权重，以该混合相似度值为基础，选择出邻域集合，并结合邻域集合中的评估信息，得出最优的推荐结果。

BP (Back Propagation)神经网络是目前应用最广泛的神经网络模型之一，是一种按误差逆传播算法训练的多层前馈网络。

BP神经网络模型包括输入层、隐藏层和输出层，每一层由一个或多个神经元组成，其结构图如图2-3所示。BP神经网络拥有很强的非线性映射能力和自学习、自适应能力，网络本身结构的可变性，也使其十分灵活，一个三层的BP神经网络能够实现对任意非线性函数进行逼近。

BP神经网络的训练过程通常分为3个过程，依次分别为数据初始化过程、正向推演计算过程以及反向权重调整过程。数据初始化是BP神经网络能够进行有效训练的前提，该过程通常包括输入数据进行归一化处理和初始权重的设置；正向推演计算是数据沿着网络方向进行推演计算;反向权重调整则是将期望输出和网络的实际输出进行对比，从输出层开始，向着输入层的方向逐层计算各层中各神经元的校正差值，调整神经元的权重。正向推演计算和反向权重调整为对单个训练样本一次完整的网络训练过程，经过不断的训练调整，网络的实际输出越来越趋近于期望输出，当网络输出到达预期目标，整个训练过程结束。

TF-IDF(Term Frequency-Inverse Document Frequency，词频一逆文档)是文本处理中常用的加权技术，广泛应用于信息检索、搜索引擎等领域。
TF-IDF的主要思想是:如果一个关键词在文档中出现的频率很高，而在其他文档中出现次数较少，则该关键词被认为具有较强的代表性，即该关键词通过TF-IDF计算后有较高的权重。

TextRank算法，是一种用于文本关键词排序的算法，页排序算法PageRank。
PageRank基本思想是将每个网页看成一个节点，网页中的链接指向看成一条有向边，一个网页节点的重要程度取决于链接指向该网页节点的其他节点的数量和重要权值，该过程描述如下:让每一个网页对其所包含的链接指向的网页进行迭代投票，每次迭代投票过程中票的权重取决于网页当前拥有的票数，当投票结果收敛或者达到指定的迭代次数时，每个网页所获得票数即为网页重要程度权值。

TextRank算法相比于TF-IDF最大的优点是TextRank是一种无监督的学习，因此不会受限于文本的主题，并且无需大规模的训练集，可以针对单一文本进行快速的关键词的权重计算。

『叁』已知某网站用户对电影评分数据(满分5分)。应用KNN算法预测哪位用户适合给小张推荐电影

已知某网站用户对电影评分数据(满分5分)。应用KNN算法预测哪位用户适合给小张推荐电影？
不要把手机关机

『肆』大数据常用的各种算法

我们经常谈到的所谓的数据挖掘是通过大量的数据集进行排序，自动化识别趋势和模式并且建立相关性的过程。那现在市面的数据公司都是通过各种各样的途径来收集海量的信息，这些信息来自于网站、公司应用、社交媒体、移动设备和不断增长的物联网。

比如我们现在每天都在使用的搜索引擎。在自然语言处理领域，有一种非常流行的算法模型，叫做词袋模型，即把一段文字看成一袋水果，这个模型就是要算出这袋水果里，有几个苹果、几个香蕉和几个梨。搜索引擎会把这些数字记下来，如果你想要苹果，它就会把有苹果的这些袋子给你。

当我们在网上买东西或是看电影时，网站会推荐一些可能符合我们偏好的商品或是电影，这个推荐有时候还挺准。事实上，这背后的算法，是在数你喜欢的电影和其他人喜欢的电影有多少个是一样的，如果你们同时喜欢的电影超过一定个数，就把其他人喜欢、但你还没看过的电影推荐给你。搜索引擎和推荐系统在实际生产环境中还要做很多额外的工作，但是从本质上来说，它们都是在数数。

当数据量比较小的时候，可以通过人工查阅数据。而到了大数据时代，几百TB甚至上PB的数据在分析师或者老板的报告中，就只是几个数字结论而已。在数数的过程中，数据中存在的信息也随之被丢弃，留下的那几个数字所能代表的信息价值，不抵其真实价值之万一。过去十年，许多公司花了大价钱，用上了物联网和云计算，收集了大量的数据，但是到头来却发现得到的收益并没有想象中那么多。

所以说我们现在正处于“ 数字化一切 ”的时代。人们的所有行为，都将以某种数字化手段转换成数据并保存下来。每到新年，各大网站、App就会给用户推送上一年的回顾报告，比如支付宝会告诉用户在过去一年里花了多少钱、在淘宝上买了多少东西、去什么地方吃过饭、花费金额超过了百分之多少的小伙伴；航旅纵横会告诉用户去年做了多少次飞机、总飞行里程是多少、去的最多的城市是哪里；同样的，最后让用户知道他的行程超过了多少小伙伴。这些报告看起来非常酷炫，又冠以“大数据”之名，让用户以为是多么了不起的技术。

实际上，企业对于数据的使用和分析，并不比我们每年收到的年度报告更复杂。已经有30多年历史的商业智能，看起来非常酷炫，其本质依然是数数，并把数出来的结果画成图给管理者看。只是在不同的行业、场景下，同样的数字和图表会有不同的名字。即使是最近几年炙手可热的大数据处理技术，也不过是可以数更多的数，并且数的更快一些而已。

在大数据处理过程中会用到那些算法呢？

1、A* 搜索算法——图形搜索算法，从给定起点到给定终点计算出路径。其中使用了一种启发式的估算，为每个节点估算通过该节点的较佳路径，并以之为各个地点排定次序。算法以得到的次序访问这些节点。因此，A*搜索算法是较佳优先搜索的范例。

2、集束搜索(又名定向搜索，Beam Search)——较佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过，集束搜索只能在每个深度中发现最前面的m个最符合条件的节点，m是固定数字——集束的宽度。

3、二分查找(Binary Search)——在线性数组中找特定值的算法，每个步骤去掉一半不符合要求的数据。

4、分支界定算法(Branch and Bound)——在多种最优化问题中寻找特定最优化解决方案的算法，特别是针对离散、组合的最优化。

5、Buchberger算法——一种数学算法，可将其视为针对单变量较大公约数求解的欧几里得算法和线性系统中高斯消元法的泛化。

6、数据压缩——采取特定编码方案，使用更少的字节数(或是其他信息承载单元)对信息编码的过程，又叫来源编码。

7、Diffie-Hellman密钥交换算法——一种加密协议，允许双方在事先不了解对方的情况下，在不安全的通信信道中，共同建立共享密钥。该密钥以后可与一个对称密码一起，加密后续通讯。

8、Dijkstra算法——针对没有负值权重边的有向图，计算其中的单一起点最短算法。

9、离散微分算法(Discrete differentiation)。

10、动态规划算法(Dynamic Programming)——展示互相覆盖的子问题和最优子架构算法

11、欧几里得算法(Euclidean algorithm)——计算两个整数的较大公约数。最古老的算法之一，出现在公元前300前欧几里得的《几何原本》。

12、期望-较大算法(Expectation-maximization algorithm，又名EM-Training)——在统计计算中，期望-较大算法在概率模型中寻找可能性较大的参数估算值，其中模型依赖于未发现的潜在变量。EM在两个步骤中交替计算，第一步是计算期望，利用对隐藏变量的现有估计值，计算其较大可能估计值;第二步是较大化，较大化在第一步上求得的较大可能值来计算参数的值。

13、快速傅里叶变换(Fast Fourier transform，FFT)——计算离散的傅里叶变换(DFT)及其反转。该算法应用范围很广，从数字信号处理到解决偏微分方程，到快速计算大整数乘积。

14、梯度下降(Gradient descent)——一种数学上的最优化算法。

15、哈希算法(Hashing)。

16、堆排序(Heaps)。

17、Karatsuba乘法——需要完成上千位整数的乘法的系统中使用，比如计算机代数系统和大数程序库，如果使用长乘法，速度太慢。该算法发现于1962年。

18、LLL算法(Lenstra-Lenstra-Lovasz lattice rection)——以格规约(lattice)基数为输入，输出短正交向量基数。LLL算法在以下公共密钥加密方法中有大量使用：背包加密系统(knapsack)、有特定设置的RSA加密等等。

19、较大流量算法(Maximum flow)——该算法试图从一个流量网络中找到较大的流。它优势被定义为找到这样一个流的值。较大流问题可以看作更复杂的网络流问题的特定情况。较大流与网络中的界面有关，这就是较大流-最小截定理(Max-flow min-cut theorem)。Ford-Fulkerson 能找到一个流网络中的较大流。

20、合并排序(Merge Sort)。

21、牛顿法(Newton's method)——求非线性方程(组)零点的一种重要的迭代法。

22、Q-learning学习算法——这是一种通过学习动作值函数(action-value function)完成的强化学习算法，函数采取在给定状态的给定动作，并计算出期望的效用价值，在此后遵循固定的策略。Q-leanring的优势是，在不需要环境模型的情况下，可以对比可采纳行动的期望效用。

23、两次筛法(Quadratic Sieve)——现代整数因子分解算法，在实践中，是目前已知第二快的此类算法(仅次于数域筛法Number Field Sieve)。对于110位以下的十位整数，它仍是最快的，而且都认为它比数域筛法更简单。

24、RANSAC——是“RANdom SAmple Consensus”的缩写。该算法根据一系列观察得到的数据，数据中包含异常值，估算一个数学模型的参数值。其基本假设是：数据包含非异化值，也就是能够通过某些模型参数解释的值，异化值就是那些不符合模型的数据点。

25、RSA——公钥加密算法。较早的适用于以签名作为加密的算法。RSA在电商行业中仍大规模使用，大家也相信它有足够安全长度的公钥。

26、Schönhage-Strassen算法——在数学中，Schönhage-Strassen算法是用来完成大整数的乘法的快速渐近算法。其算法复杂度为：O(N log(N) log(log(N)))，该算法使用了傅里叶变换。

27、单纯型算法(Simplex Algorithm)——在数学的优化理论中，单纯型算法是常用的技术，用来找到线性规划问题的数值解。线性规划问题包括在一组实变量上的一系列线性不等式组，以及一个等待较大化(或最小化)的固定线性函数。

28、奇异值分解(Singular value decomposition，简称SVD)——在线性代数中，SVD是重要的实数或复数矩阵的分解方法，在信号处理和统计中有多种应用，比如计算矩阵的伪逆矩阵(以求解最小二乘法问题)、解决超定线性系统(overdetermined linear systems)、矩阵逼近、数值天气预报等等。

29、求解线性方程组(Solving a system of linear equations)——线性方程组是数学中最古老的问题，它们有很多应用，比如在数字信号处理、线性规划中的估算和预测、数值分析中的非线性问题逼近等等。求解线性方程组，可以使用高斯—约当消去法(Gauss-Jordan elimination)，或是柯列斯基分解( Cholesky decomposition)。

30、Strukturtensor算法——应用于模式识别领域，为所有像素找出一种计算方法，看看该像素是否处于同质区域( homogenous region)，看看它是否属于边缘，还是是一个顶点。

31、合并查找算法(Union-find)——给定一组元素，该算法常常用来把这些元素分为多个分离的、彼此不重合的组。不相交集(disjoint-set)的数据结构可以跟踪这样的切分方法。合并查找算法可以在此种数据结构上完成两个有用的操作：

查找：判断某特定元素属于哪个组。

合并：联合或合并两个组为一个组。

32、维特比算法(Viterbi algorithm)——寻找隐藏状态最有可能序列的动态规划算法，这种序列被称为维特比路径，其结果是一系列可以观察到的事件，特别是在隐藏的Markov模型中。

『伍』推荐算法之—FM

FM即Factor Machine，因子分解机

1）、特征组合是许多机器学习建模过程中遇到的问题，如果对特征直接建模，很有可能忽略掉特征与特征之间的关联信息，一次可以通过构建新的交叉特征这一特征组合方式提高模型的效果。

2）、高维的稀疏矩阵是实际工程中常见的问题，并且直接导致计算量过大，特征权值更新缓慢。试想一个10000 100的表，每一列都有8中元素，经过one-hot编码之后，会产生一个10000 800的表。因此表中每一元素只有100个值为1,700个值为0

而FM的优势就在于对这两方面问题的处理。首先是特征组合，通过两两特征组合，引入交叉项特征（二阶特征），提高模型得分；其次是高维灾难，通过引入隐向量（对参数矩阵进行分解），完成特征参数的估计

我们已经知道FM可以解决特征组合以及高维稀疏矩阵问题，而实际业务场景中，电商、豆瓣等推荐系统的场景是使用最广泛的领域，打个比方，小王只在豆瓣上浏览过20部电影，而豆瓣上面有20000部电影，如果构建一个基于小王的电影矩阵，毫无疑问，里面讲有199980个元素全为0.而类似这样的问题就可以通过FM来解决

在展示FM算法之前，我们先回顾一下最常见的线性表达式：

其中[图片上传失败W0为初始权重值，或者理解为偏置项，Wi为每个特征 xi 对应的权重值，可以看到，这种线性表达式只描述了每个特征和输出的关系。

FM的表达式如下，可观察到，只是在线性表达式后面加入了新的交叉项特征及对应的权值。

1）寻找交叉项

FM表达式的求解核心在于对交叉项的求解。下面是很多人用来求解交叉项的展开式，对于第一次接触FM算法的人来说可能会有疑惑，不知道公式怎么展开的，接下来笔者会手动推导一遍。

设有3个变量（特征）x1,x2,x3,每个特征的隐变量分别为v1=(1,2,3)、v2=(4,5,6)、v3=(1,2,1)即：

设交叉项所组成的权矩阵W为对称矩阵，之所以设为对称矩阵是因为对称矩阵可以用向量乘以向量的转置代替的性质。

那么W=VVT ,即

所以：

2）交叉项权值转换

对交叉项有了基本了解后，下面将进行公式的分解，还是以n=3为例，

3）交叉项展开式

上面的例子是对3个特征做的交叉项推导，因此对具有n个特征，FM的交叉项公式就可推广为：

我们还可以进一步分解：

所以FM算法的交叉项最终展开为：

利用梯度下降法，通过求损失函数对特征（输入项）的导数计算出梯度，从而更新权值。设m为样本个数θ为权值。

如果是回归问题，损失函数一般是均方误差（MSE）即，最小二乘：

所以回归问题的损失函数对权值的梯度（导数）为：

其中，σ表示是阶跃函数sigmoid。

所以分类问题的损失函数对权值的梯度（导数）为：

『陆』 07_推荐系统算法详解

基于人口统计学的推荐与用户画像、基于内容的推荐、基于协同过滤的推荐。

1、基于人口统计学的推荐机制( Demographic-based Recommendation)是一种最易于实现的推荐方法，它只是简单的根据系统用户的基本信息发现用户的相关程度，然后将相似用户喜爱的其他物品推荐给当前用户。

2、对于没有明确含义的用户信息(比如登录时间、地域等上下文信息)，可以通过聚类等手段，给用户打上分类标签。

3、对于特定标签的用户，又可以根据预设的规则(知识)或者模型，推荐出对应的物品。

4、用户信息标签化的过程一般又称为用户画像 ( User Profiling）。

（1）用户画像( User Profile)就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。

（2）用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

（3）作为大数据的根基，它完美地抽象出一个用户的信息全貌，为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息，提供了足够的数据基础。

1、 Content- based Recommendations(CB)根据推荐物品或内容的元数据，发现物品的相关性，再基于用户过去的喜好记录，为用户推荐相似的物品。

2、通过抽取物品内在或者外在的特征值,实现相似度计算。比如一个电影,有导演、演员、用户标签UGC、用户评论、时长、风格等等，都可以算是特征。

3、将用户(user)个人信息的特征(基于喜好记录或是预设兴趣标签)，和物品(item)的特征相匹配，就能得到用户对物品感兴趣的程度。在一些电影、音乐、图书的社交网站有很成功的应用,有些网站还请专业的人员对物品进行基因编码/打标签(PGC）。

4、相似度计算：

5、对于物品的特征提取——打标签(tag)

- 专家标签(PGC）

- 用户自定义标签(UGC)

- 降维分析数据,提取隐语义标签(LFM)

对于文本信息的特征提取——关键词

- 分词、语义处理和情感分析(NLP)

- 潜在语义分析(LSA）

6、基于内容推荐系统的高层次结构

7、特征工程

（1）特征( feature)：数据中抽取出来的对结果预测有用的信息。

特征的个数就是数据的观测维度。

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。

特征工程一般包括特征清洗(采样、清洗异常样本)，特征处理和特征选择。

特征按照不同的数据类型分类，有不同的特征处理方法：数值型、类别型、时间型、统计型。

（2）数值型特征处理

      用连续数值表示当前维度特征，通常会对数值型特征进行数学上的处理，主要的做法是归一化和离散化。

        * 幅度调整归一化：

        特征与特征之间应该是平等的，区别应该体现在特征内部。

        例如房屋价格和住房面积的幅度是不同的，房屋价格可能在3000000~15000000(万)之间,而住房面积在40-300(平方米)之间，那么明明是平等的两个特征，输入到相同的模型中后由于本身的幅值不同导致产生的效果不同，这是不合理的



* 数值型特征处理——离散化

离散化的两种方式：等步长——简单但不一定有效；等频——min -> 25% -> 75% -> max

两种方法对比：

          等频的离散化方法很精准，但需要每次都对数据分布进行一遍从新计算，因为昨天用户在淘宝上买东西的价格分布和今天不一定相同，因此昨天做等频的切分点可能并不适用，而线上最需要避免的就是不固定，需要现场计算，所以昨天训练出的模型今天不一定能使用。

        等频不固定，但很精准，等步长是固定的，非常简单，因此两者在工业上都有应用。

（3）类别型特征处理

      类别型数据本身没有大小关系，需要将它们编码为数字，但它们之间不能有预先设定的大小关系，因此既要做到公平，又要区分开它们，那么直接开辟多个空间。

    One-Hot编码/哑变量：One-Hot编码/哑变量所做的就是将类别型数据平行地展开，也就是说，经过One-Hot编码哑变量后，这个特征的空间会膨胀。

（4）时间型特征处理

        时间型特征既可以做连续值,又可以看做离散值。

连续值：持续时间(网页浏览时长)；间隔时间(上一次购买/点击离现在的时间间隔)。

        离散值：一天中哪个时间段；一周中的星期几；一年中哪个月/星期；工作日/周末。

（5）统计型特征处理

      加减平均：商品价格高于平均价格多少，用户在某个品类下消费超过多少。

        分位线：商品属于售出商品价格的分位线处。

        次序性：商品处于热门商品第几位。

    比例类：电商中商品的好/中/差评比例。

8、推荐系统常见反馈数据：

9、基于UGC的推荐

用户用标签来描述对物品的看法，所以用户生成标签(UGC)是联系用户和物品的纽带，也是反应用户兴趣的重要数据源。

一个用户标签行为的数据集一般由一个三元组(用户,物品,标签)的集合表示，其中一条记录(u,i,b)表示用户u给物品打上了标签b。

一个最简单的算法：

- 统计每个用户最常用的标签

    - 对于每个标签,统计被打过这个标签次数最多的物品

- 对于一个用户，首先找到他常用的标签，然后找到具有这些标签的最热门的物品，推荐给他

- 所以用户u对物品i的兴趣公式为，其中使用户u打过标签b的次数，是物品i被打过标签b的次数。

简单算法中直接将用户打出标签的次数和物品得到的标签次数相乘，可以简单地表现出用户对物品某个特征的兴趣。

    这种方法倾向于给热门标签(谁都会给的标签,如“大片”、“搞笑”等)、热门物品(打标签人数最多)比较大的权重，如果一个热门物品同时对应着热门标签,那它就会“霸榜”，推荐的个性化、新颖度就会降低。

    类似的问题,出现在新闻内容的关键字提取中。比如以下新闻中,哪个关键字应该获得更高的权重?

10、 TF-IDF：词频逆文档频率 ( Term Frequency- -Inverse Document Frequency,TF-DF)是一种用于资讯检索与文本挖掘的常用加权技术。

      TFDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

                  TFIDF=TF IDF

     TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

    TF-DF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

       词频( Term Frequency,TF) ：指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化，以防止偏向更长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。），其中表示词语 i 在文档 j 中出现的频率，表示 i 在 j 中出现的次数，表示文档 j 的总词数。

         逆向文件频率( Inverse Document Frequency,IDF) ：是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文档数目除以包含该词语之文档的数目，再将得到的商取对数得到，其中表示词语 i 在文档集中的逆文档频率，N表示文档集中的文档总数，表示文档集中包含了词语 i 的文档数。

（11） TF-IDF对基于UGC推荐的改进：，为了避免热门标签和热门物品获得更多的权重，我们需要对“热门进行惩罚。

借鉴TF-IDF的思想，以一个物品的所有标签作为“文档”，标签作为“词语”，从而计算标签的“词频”(在物品所有标签中的频率)和“逆文档频率”(在其它物品标签中普遍出现的频率）。

由于“物品i的所有标签” 应该对标签权重没有影响，而 “所有标签总数” N 对于所有标签是一定的，所以这两项可以略去。在简单算法的基础上,直接加入对热门标签和热门物品的惩罚项：，其中，记录了标签 b 被多少个不同的用户使用过，记录了物品 i 被多少个不同的用户打过标签。

（一）协同过滤（Collaborative Filtering, CF）

1、基于协同过滤(CF)的推荐：基于内容( Content based,CB)主要利用的是用户评价过的物品的内容特征，而CF方法还可以利用其他用户评分过的物品内容。

CF可以解决CB的一些局限：

- 物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐。

- CF基于用户之间对物品的评价质量，避免了CB仅依赖内容可能造成的对物品质量判断的干。

- CF推荐不受内容限制，只要其他类似用户给出了对不同物品的兴趣，CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系)

    分为两类：基于近邻和基于模型。

2、基于近邻的推荐系统：根据的是相同“口碑”准则。是否应该给Cary推荐《泰坦尼克号》?

（二）基于近邻的协同过滤

1、基于用户（User-CF）：基于用户的协同过滤推荐的基本原理是，根据所有用户对物品的偏好，发现与当前用户口味和偏好相似的“邻居”用户群，并推荐近邻所偏好的物品。

在一般的应用中是采用计算“K-近邻”的算法；基于这K个邻居的历史偏好信息，为当前用户进行推荐。

User-CF和基于人口统计学的推荐机制：

- 两者都是计算用户的相似度，并基于相似的“邻居”用户群计算推荐。

- 它们所不同的是如何计算用户的相似度：基于人口统计学的机制只考虑用户本身的特征，而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度，它的基本假设是，喜欢类似物品的用户可能有相同或者相似的口味和偏好。

2、基于物品（Item-CF）：基于项目的协同过滤推荐的基本原理与基于用户的类似，只是使用所有用户对物品的偏好，发现物品和物品之间的相似度，然后根据用户的历史偏好信息，将类似的物品推荐给用户。

Item-CF和基于内容(CB)的推荐

- 其实都是基于物品相似度预测推荐，只是相似度计算的方法不一样，前者是从用户历史的偏好推断，而后者是基于物品本身的属性特征信息。

同样是协同过滤，在基于用户和基于项目两个策略中应该如何选择呢?

- 电商、电影、音乐网站,用户数量远大于物品数量。

- 新闻网站，物品(新闻文本)数量可能大于用户数量。

3、 User-CF和Item-CF的比较

同样是协同过滤，在User-CF和ltem-CF两个策略中应该如何选择呢？

Item-CF应用场景

- 基于物品的协同过滤( Item-CF ) 推荐机制是 Amazon在基于用户的机制上改良的一种策略因为在大部分的Web站点中，物品的个数是远远小于用户的数量的，而且物品的个数和相似度相对比较稳定，同时基于物品的机制比基于用户的实时性更好一些，所以 Item-CF 成为了目前推荐策略的主流。

User-CF应用场景

- 设想一下在一些新闻推荐系统中，也许物品一一也就是新闻的个数可能大于用户的个数，而且新闻的更新程度也有很快，所以它的相似度依然不稳定，这时用 User-cf可能效果更好。

所以，推荐策略的选择其实和具体的应用场景有很大的关系。

4、基于协同过滤的推荐优缺点

（1）基于协同过滤的推荐机制的优点：

    它不需要对物品或者用户进行严格的建模，而且不要求对物品特征的描述是机器可理解的，所以这种方法也是领域无关的。

这种方法计算出来的推荐是开放的，可以共用他人的经验，很好的支持用户发现潜在的兴趣偏好。

（2）存在的问题

    方法的核心是基于历史数据，所以对新物品和新用户都有“冷启动”的问题。

        推荐的效果依赖于用户历史好数据的多少和准确性。

    在大部分的实现中，用户历史偏好是用稀疏矩阵进行存储的，而稀疏矩阵上的计算有些明显的问题，包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等。

    对于一些特殊品味的用户不能给予很好的推荐。

（三）基于模型的协同过滤

1、基本思想

（1）用户具有一定的特征，决定着他的偏好选择

（2）物品具有一定的特征，影响着用户需是否选择它。

（3）用户之所以选择某一个商品，是因为用户特征与物品特征相互匹配。

    基于这种思想，模型的建立相当于从行为数据中提取特征，给用户和物品同时打上“标签”；这和基于人口统计学的用户标签、基于内容方法的物品标签本质是一样的，都是特征的提取和匹配。

有显性特征时(比如用户标签、物品分类标签)我们可以直接匹配做出推荐；没有时，可以根据已有的偏好数据，去发据出隐藏的特征,这需要用到隐语义模型(LFM)。

2、基于模型的协同过滤推荐，就是基于样本的用户偏好信息，训练一个推荐模型,然后根据实时的用户喜好的信息进行预测新物品的得分，计算推荐

    基于近邻的推荐和基于模型的推荐

- 基于近邻的推荐是在预测时直接使用已有的用户偏好数据，通过近邻数据来预测对新物品的偏好(类似分类)

- 而基于模型的方法，是要使用这些偏好数据来训练模型，找到内在规律，再用模型来做预测(类似回归)

训练模型时，可以基于标签内容来提取物品特征，也可以让模型去发据物品的潜在特征；这样的模型被称为隐语义模型 ( Latent Factor Model,LFM)。

（1）隐语义模型(LFM)：用隐语义模型来进行协同过滤的目标：

- 揭示隐藏的特征,这些特征能够解释为什么给出对应的预测评分

    - 这类特征可能是无法直接用语言解释描述的,事实上我们并不需要知道,类似“玄学”

        通过矩阵分解进行降维分析

- 协同过滤算法非常依赖历史数据，而一般的推荐系统中，偏好数据又往往是稀疏的；这就需要对原始数据做降维处理。

- 分解之后的矩阵，就代表了用户和物品的隐藏特征

        隐语义模型的实例：基于概率的隐语义分析(pLSA)、隐式迪利克雷分布模型(LDA)、矩阵因子分解模型(基于奇异值分解的模型,SVD)

（2）LFM降维方法——矩阵因子分解

（3）LFM的进一步理解

    我们可以认为，用户之所以给电影打出这样的分数，是有内在原因的，我们可以挖掘出影响用户打分的隐藏因素，进而根据未评分电影与这些隐藏因素的关联度，决定此未评分电影的预测评分。

应该有一些隐藏的因素，影响用户的打分，比如电影：演员、题材、年代…甚至不定是人直接可以理解的隐藏因子。

找到隐藏因子，可以对user和Iiem进行关联(找到是由于什么使得user喜欢/不喜欢此Item,什么会决定user喜欢/不喜欢此item)，就可以推测用户是否会喜欢某一部未看过的电影。

（4）矩阵因子分解

（5）模型的求解——损失函数

（6）模型的求解算法——ALS

  现在，矩阵因子分解的问题已经转化成了一个标准的优化问题，需要求解P、Q，使目标损失函数取最小值。

最小化过程的求解，一般采用随机梯度下降算法或者交替最小二乘法来实现交替最小二乘法( Alternating Least Squares,ALS)

ALS的思想是，由于两个矩阵P和Q都未知,且通过矩阵乘法耦合在一起，为了使它们解耦，可以先固定Q，把P当作变量，通过损失函数最小化求出P，这就是一个经典的最小二乘问题；再反过来固定求得的P，把Q当作变量，求解出Q：如此交替执行，直到误差满足阅值条件，或者到达迭代上限。

（7）梯度下降算法

『柒』推荐算法有哪些

推荐算法大致可以分为三类：基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。基于内容的推荐算法，原理是用户喜欢和自己关注过的Item在内容上类似的Item，比如你看了哈利波特I，基于内容的推荐算法发现哈利波特II-VI，与你以前观看的在内容上面（共有很多关键词）有很大关联性，就把后者推荐给你，这种方法可以避免Item的冷启动问题（冷启动：如果一个Item从没有被关注过，其他推荐算法则很少会去推荐，但是基于内容的推荐算法可以分析Item之间的关系，实现推荐），弊端在于推荐的Item可能会重复，典型的就是新闻推荐，如果你看了一则关于MH370的新闻，很可能推荐的新闻和你浏览过的，内容一致；另外一个弊端则是对于一些多媒体的推荐（比如音乐、电影、图片等)由于很难提内容特征，则很难进行推荐，一种解决方式则是人工给这些Item打标签。协同过滤算法，原理是用户喜欢那些具有相似兴趣的用户喜欢过的商品，比如你的朋友喜欢电影哈利波特I，那么就会推荐给你，这是最简单的基于用户的协同过滤算法（user-based collaboratIve filtering），还有一种是基于Item的协同过滤算法（item-based collaborative filtering），这两种方法都是将用户的所有数据读入到内存中进行运算的，因此成为Memory-based Collaborative Filtering，另一种则是Model-based collaborative filtering，包括Aspect Model，pLSA，LDA，聚类，SVD，Matrix Factorization等，这种方法训练过程比较长，但是训练完成后，推荐过程比较快。最后一种方法是基于知识的推荐算法，也有人将这种方法归为基于内容的推荐，这种方法比较典型的是构建领域本体，或者是建立一定的规则，进行推荐。混合推荐算法，则会融合以上方法，以加权或者串联、并联等方式尽心融合。当然，推荐系统还包括很多方法，其实机器学习或者数据挖掘里面的方法，很多都可以应用在推荐系统中，比如说LR、GBDT、RF（这三种方法在一些电商推荐里面经常用到），社交网络里面的图结构等，都可以说是推荐方法。

『捌』豆瓣电影的评分标准是什么有何算法

豆瓣的注册用户看完一部电影，心情好的话会来打个一到五星的分（有时候心情不好也会来）。比方说一部电影有42万用户打分。我们的程序把这42万个一到五星换算成零到十分，加起来除以42万，就得到了豆瓣评分。

这个评分会自动出现在豆瓣各处，中间没有审核，平时也没有编辑盯着看。每过若干分钟，程序会自动重跑一遍，把最新打分的人的意见包括进来。

那42万用户里可能包括资深电影评论家，可能包括你、你的亲戚、你的小学同学、早晨卖你油条的那个人，也可能包括阿北我个人。但每个人都是一票。这个是“大众评审团”应该的含义：不是说团里的人全都大众，而是说和大众一样一人一票。

豆瓣的工作人员偶然收到“我明明给这个片子打了五星，为什么评分一点没变”的投诉的时候，除了心里嘀咕一下“哎，你拿这些红人／独生子女／八零后／九零后／零零后／数学不好的人怎么办”以外，会（或者应该）这样耐心解释：评分实际是变了，只是在小数点后四位，被四舍五入掉了。

但如果有几千个人和你一样都打五星的时候，分数就会变。

“一人一票”唯一的例外，是豆瓣的程序判断是“非正常打分”的帐号。这些打分会被排除在外。具体下面会说到。

豆瓣电影评分的主旨和原则，是“尽力还原普通观影大众对一部电影的平均看法”。这个主旨过去十年没变过，将来也不想变。

它并不是专家、影视从业人员或者资深人士对电影的看法，虽然这些看法会被豆瓣算在“普通观影大众”之内。所以有次听到“豆瓣电影评分不专业”的说法的时候，我的反应这是在说“大众不专业”，应该怪语文才是。个人认为汇总专家意见会是另一个很有价值的服务，但这个确实不是豆瓣评分的宗旨。

豆瓣简介

豆瓣（douban）是一家社区网站。网站由杨勃（网名“阿北”）[3]创立于2005年3月6日。该网站以书影音起家，提供关于书籍、电影、音乐等作品的信息，无论描述还是评论都由用户提供，是中国Web 2.0网站中具有特色的一个网站。

网站还提供书影音推荐、线下同城活动、小组话题交流等多种服务功能，它更像一个集品味系统（读书、电影、音乐）、表达系统（我读、我看、我听）和交流系统（同城、小组、友邻）于一体的创新网络服务，一直致力于帮助都市人群发现生活中有用的事物。2012年，豆瓣阅读上线，开始进入网上电子书版权领域。

(8)电影推荐用的什么算法扩展阅读：

豆瓣其他产品

1.豆瓣FM

豆瓣FM是你专属的个性化音乐收听工具，打开就能收听，可以用“红心”、“垃圾桶”或者“跳过” 告诉豆瓣FM你的喜好。豆瓣FM将根据你的操作和反馈，从海量曲库中自动发现并播出符合你音乐口味的歌曲，提供公共、私人和红心三种收听方式。在红心兆赫离线也能收听。

2.豆瓣读书- 豆瓣读书自2005年上线，已成为国内信息最全、用户数量最大且最为活跃的读书网站。我们专注于为用户提供全面、且精细化的读书服务，同时不断探索新的产品模式。到2012年豆瓣读书每个月有超过800万的来访用户，过亿的访问次数。

3.豆瓣阅读

豆瓣阅读是豆瓣读书2012年推出的数字阅读服务，支持 Web、iPhone、iPad、Android、Kindle等桌面和移动设备，自2012年5月7日作品商店上线以来，商店作品达600余部，用户评论3000余篇，有50万用户购买过付费或者免费作品。

豆瓣阅读的现有内容涵盖了小说、历史、科技、艺术与设计、生活等多种门类，定位为短篇作品和图书于一体的综合平台。

4.豆瓣音乐

豆瓣音乐是中国最大的音乐分享、评论、音乐人推广社区，拥有最完整的全球音乐信息库、最权威的用户音乐评论，和最具创造力的独立音乐人资源。汇集90多万音乐条目，包括小凡say、幼稚园杀手、MC光光、呆宝静等21000多位独立音乐人入驻，2011年全年平均每5分钟诞生一首原创音乐，覆盖粉丝超千万。

5.豆瓣同城

豆瓣同城是国内最大的线下活动信息发布平台，包括音乐/演出、话剧、展览、电影、讲座/沙龙、戏剧/曲艺、生活/聚会、体育、旅行、公益……专注于一线城市业余生活方式。

6.豆瓣小组

豆瓣小组于2005年上线，定位于“对同一个话题感兴趣的人的聚集地”，至今已有30多万个小组被用户创建，月独立用户超过5500万。内容包括娱乐、美容、时尚、旅行等生活的方方面面。用户在这里发布内容，同时也通过互动或浏览，发现更多感兴趣的内容。

『玖』常见的推荐算法

根据用户兴趣和行为，向用户推荐所需要的信息，帮助用户在海量的信息中快速发现自己真正需要的东西。所以推荐系统要解决的问题用户没用明确的需求以及信息存在过载。推荐系统一般要基于以下来搭建：
1、根据业务来定义自身产品的热门标准
2、用户信息：比如性别、年龄、职业、收入等
3、用户行为
4、社会化关系

1、非个性化推荐
在冷启动方面我们精彩用非个性化推荐来解决问题。常见的有：热门推荐，编辑推荐，最新推荐等。下面是3个场景下的排序介绍：
热门推荐：根据业务类型确定排名核心指标，比如阅读数，其次要考虑避免马太效应，所以增加1个维度：时间。一般情况一个内容的热度是随着时间不断下降的，所以需要设定重力因子G，它决定热度随着时间流逝下降的速度。热度初始值由阅读数决定，我们假设R为阅读书，距离发帖时间的时间为T，重力因子为G，热度为rank。根据热度随着时间而不断下降，且是非线性的，所以我们用指数函数来表达时间和热度的关系：rank=R/(T)^G，下图为热度的基本曲线：

通过该函数，我们可以随意调整参数来控制曲线的平坦和陡峭，如果G越大，曲线越陡峭说明热度下降越快。如果我们要调整热度初始值，可对R进行调整，比如R1=R^0.8，来缩短每篇文章的初始热度值
编辑推荐：一般由编辑在后台进行设置
最新推荐：如果无其他规则，一般按内容更新时间／创建时间来倒序

2、基于用户基本信息推荐（人口统计学）
根据系统用户的基本信息如：领域、职位、工作年龄、性别和所在地等。根据这些信息给用户推荐感兴趣或者相关的内容。
常见的用户基本信息有：性别，年龄，工作、收入、领域、职位、所在地，手机型号、网络条件、安装渠道、操作系统等等。根据这些信息来关联我们数据源，比如年龄-关联电影表、收入-关联商品类型表，性别-文章关联表等等。然后设定权重，给予个性化的推荐。
步骤1：用户建模，收集用户基本信息，建立兴趣图谱，标签体系树状结构然后配上权重
步骤2：内容建模，细分内容的元数据，将步骤1的用户标签和元数据连接，然后进行推荐

2、基于内容基本的推荐
根据推荐物品或者信息的元数据，发现物品或者信息的相关性，然后基于用户以往的喜好记录，推荐给用户相似的物品。
内容的一些基本属性：tag、领域、主题、类型、关键字、来源等

3、基于协同过滤的推荐
这种算法基于一种物以类聚人以群分的假设，喜欢相同物品的用户更有可能具有相同的兴趣。基于协同过滤推荐系统一般应用于有用户评分的系统中，通过分数去刻画用户对于物品的喜好。根据维度可分为2种：
1、基于用户：找到和你相似的人推荐他们看过而你没有看过的内容
比如下面，系统判断甲乙2个用户是相似的，那么会给甲推荐短视频相关内容，会给乙推荐数据分析相关内容
甲：产品经理、运营、数据分析
乙：产品经理、运营、短视频
丙：比特币、创业、硅谷
步骤1:找到和目标用户兴趣相似的用户集合
步骤2:找到集合中用户喜欢的且目标用户没有被推荐过的内容

2、基于物品：以物为本建立各商品之间相似度关系矩阵，用户看了x也会看y
比如下面，甲和乙分别不约而同看了产品经理和数据分析，说明喜欢产品经理和数据分析的用户重合度高，说明两个内容相似。所以给喜欢产品经理的人推荐数据分析，给喜欢数据分析的人推荐产品经理。
这么理解：喜欢产品经理的人有m人，喜欢数据分析有n人，其中m中有80%用户与n中80%的用户是一样的，就意味着喜欢产品经理的用户也会喜欢数据分析。
产品经理：甲、乙，丁
数据分析：甲、乙，戊
增长黑客：甲、丙
喜欢物品A的用户，可能也会喜欢与物品A相似的物品B，通过历史行为计算出2个物品的相似度（比如m人喜欢A，n人喜欢B，有k人喜欢A又喜欢B，那么A和B的相似度可计算为k/m或者n，因为k属于m和n），这个推荐和内容推荐算法区别是内容推荐算法是根据内容的属性来关联，而基于物品的协同过滤则是根据用户的行为对内容进行关联

4、基于用户社交关系推荐
用户与谁交朋友或者关系好，在一定程度上朋友的需求和自身的需求是相似的。所以向用户推荐好友喜欢的东西。本质上是好友关系链版的基于用户的协调过滤

5、推荐思路的拓展
根据不同使用场景进行不同的推荐，可细分的场景包括用户使用的：时间、地点、心情、网络环境、兴趣、上下文信息以及使用场景。每个场景的推荐内容都不一样，所以往往一个系统都是由多种推荐方式组成，比如加权混合。
加权混合：用线性公式将几种不同的推荐按照一定权重组合起来，具体权重值需要反复测试调整。例子：加权混合=推荐1结果*a+推荐2结果*b+...+推荐n结果*n，其中abn为权重，和为1

下面分享一张来自知乎的图，供学习，侵删：

基于用户信息的推荐与基于用户的协同过滤：
两者都是计算用户的相似度，但基于用户信息的推荐只考虑用户本身信息来计算相似度，而基于用户的协同过滤是基于用户历史偏好来计算相似度

基于内容的信息推荐与基于物品的协同过滤：
两者都是计算物品的相似度，但是基于内容的信息推荐只考虑物品本身的属性特征来计算相似度，而基于物品的协同过滤是基于用户历史偏好来计算相似度

基于用户信息的推荐特点：
1、不需要历史数据，对用户基本信息建模
2、不依赖于物品，所以其他领域可无缝接入
3、因为用户基本信息一般变化不大，所以推荐效果一般

基于内容信息的推荐特点：
1、物品属性有限，很难获得有效又全的数据
2、需要获取用户喜欢的历史内容，再来推荐与内容相似的东西，所以有冷启动问题

基于用户／基于物品的协同过滤推荐特点：
1、需要获取用户的历史偏好，所以有冷启动问题
2、推荐效果依赖于大数据，数据越多，推荐效果就越好

『拾』 KNN 算法-理论篇-如何给电影进行分类

KNN 算法 的全称是 K-Nearest Neighbor ，中文为 K 近邻 算法，它是基于距离的一种算法，简单有效。

KNN 算法 即可用于分类问题，也可用于回归问题。

假如我们统计了一些 电影数据，包括电影名称，打斗次数，接吻次数，电影类型 ，如下：

可以看到，电影分成了两类，分别是动作片和爱情片。

如果现在有一部新的电影A，它的打斗和接吻次数分别是80 和7，那如何用KNN 算法对齐进行分类呢？

我们可以将打斗次数作为 X 轴 ，接吻次数作为 Y 轴 ，将上述电影数据画在一个坐标系中，如下：

通过上图可以直观的看出，动作电影与爱情电影的分布范围是不同的。

KNN 算法 基于距离，它的原理是： 选择与待分类数据最近的K 个点，这K 个点属于哪个分类最多，那么待分类数据就属于哪个分类 。

所以，要判断电影A 属于哪一类电影，就要从已知的电影样本中，选出距离电影A 最近的K 个点：

比如，我们从样本中选出三个点（即 K 为 3），那么距离电影A 最近的三个点是《功夫》，《黑客帝国》和《战狼》，而这三部电影都是动作电影。因此，可以判断电影A 也是动作电影。

另外，我们还要处理两个问题：

关于点之间的距离判断，可以参考文章《计算机如何理解事物的相关性》。

至于K 值的选择，K 值较大或者较小都会对模型的训练造成负面影响，K 值较小会造成 过拟合 ，K 值较大 欠拟合 。

因此，K 值的选择，一般采用 交叉验证 的方式。

交叉验证的思路是，把样本集中的大部分样本作为训练集，剩余部分用于预测，来验证分类模型的准确度。一般会把 K 值选取在较小范围内，逐一尝试K 的值，当模型准确度最高时，就是最合适的K 值。

可以总结出， KNN 算法 用于分类问题时，一般的步骤是：

如果，我们现在有一部电影B，知道该电影属于动作电影，并且知道该电影的接吻次数是 7 ，现在想预测该电影的打斗次数是多少？

这个问题就属于 回归问题 。

首先看下，根据已知数据，如何判断出距离电影B 最近的K 个点。

我们依然设置K 为3，已知数据为：

根据已知数据可以画出下图：

图中我画出了一条水平线，这条线代表所有接吻次数是7 的电影，接下来就是要找到距离 这条线 最近的三部（K 为 3）动作电影。

可以看到，距离这条水平线最近的三部动作电影是《功夫》，《黑客帝国》和《战狼》，那么这三部电影的打斗次数的平均值，就是我们预测的电影B 的打斗次数。

所以，电影B 的打斗次数是：

本篇文章主要介绍了 KNN 算法 的基本原理，它简单易懂，即可处理分类问题，又可处理回归问题。

KNN 算法 是基于距离的一种机器学习算法，需要计算测试点与样本点之间的距离。因此，当数据量大的时候，计算量就会非常庞大，需要大量的存储空间和计算时间。

另外，如果样本数据分类不均衡，比如有些分类的样本非常少，那么该类别的分类准确率就会很低。因此，在实际应用中，要特别注意这一点。

（本节完。）

推荐阅读：

决策树算法-理论篇-如何计算信息纯度

决策树算法-实战篇-鸢尾花及波士顿房价预测

朴素贝叶斯分类-理论篇-如何通过概率解决分类问题

朴素贝叶斯分类-实战篇-如何进行文本分类

计算机如何理解事物的相关性-文档的相似度判断

阅读全文

与电影推荐用的什么算法相关的资料

热点内容

after3免费完整下载发布：2024-08-19 09:16:24 浏览：946

监狱暴力犯罪电影发布：2024-08-19 09:12:24 浏览：568

韩国电影爱情片打电话邂逅发布：2024-08-19 09:11:15 浏览：817

北京送快递小哥电影发布：2024-08-19 09:09:01 浏览：640

金希贞的全部韩剧电影在线观看发布：2024-08-19 09:06:24 浏览：285

以前有部电影里面有个女鬼发布：2024-08-19 09:05:28 浏览：548

木星上行国语版在线免费观看发布：2024-08-19 09:05:07 浏览：421

《飞夺泸定桥》电影发布：2024-08-19 09:03:15 浏览：478

1905下载的视频在哪个文件夹发布：2024-08-19 09:01:27 浏览：972

很早的一部韩国情爱电影男女主在乡下邂逅，男的最后死了发布：2024-08-19 08:57:29 浏览：4

美片发布：2024-08-19 08:55:16 浏览：150

外国一个电影骑着发火的摩托发布：2024-08-19 08:54:50 浏览：1000

晚上我经常和我的父母一块看电视英语发布：2024-08-19 08:50:25 浏览：631

韩国阿强和阿珍是什么电影发布：2024-08-19 08:47:22 浏览：312

看电影九排发布：2024-08-19 08:45:15 浏览：308

天主教宗教题材电影发布：2024-08-19 08:44:03 浏览：417

二战电影虎虎虎国语版发布：2024-08-19 08:43:57 浏览：332

战斗机电影发布：2024-08-19 08:41:22 浏览：937

成龙教外国小孩功夫电影叫什么发布：2024-08-19 08:40:18 浏览：672

看电影怎么英文怎么翻译软件发布：2024-08-19 08:34:41 浏览：77