㈠ 如何改進SVM演算法,最好是自己的改進方法,別引用那些前人改進的演算法
樓主對於這種問題的答案完全可以上SCI了,知道答案的人都在寫論文中,所以我可以給幾個改進方向給你提示一下:
1 SVM是分類器對於它的准確性還有過擬合性都有很成熟的改進,所以採用數學方法來改進感覺很難了,但是它的應用很廣泛 SVMRank貌似就是netflix電影推薦系統的核心演算法,你可以了解下
2 與其他演算法的聯合,boosting是一種集成演算法,你可以考慮SVM作為一種弱學習器在其框架中提升學習的准確率
SVM的本身演算法真有好的改進完全可以在最高等級雜志上發論文,我上面說的兩個方面雖然很簡單但如果你有實驗數據證明,在國內發表核心期刊完全沒問題,本人也在論文糾結中。。
㈡ 協同過濾和基於內容推薦有什麼區別
基於內容的推薦只考慮了對象的本身性質,將對象按標簽形成集合,如果你消費集合中的一個則向你推薦集合中的其他對象;
基於協同過濾的推薦演算法,充分利用集體智慧,即在大量的人群的行為和數據中收集答案,以幫助我們對整個人群得到統計意義上的結論,推薦的個性化程度高,基於以下兩個出發點:(1)興趣相近的用戶可能會對同樣的東西感興趣;(2)用戶可能較偏愛與其已購買的東西相類似的商品。也就是說考慮進了用戶的歷史習慣,對象客觀上不一定相似,但由於人的行為可以認為其主觀上是相似的,就可以產生推薦了。
㈢ 學IT的,寫了一個電影推薦系統,但是為什麼評分預測值大於五
全文以「預測電影評分」例子展開
r(i,j)=0則表明user_j沒有對movie_i 沒有評分,
推薦系統要做的就是通過預測user_j對這些movie {i|r(i,j)=0}的評分來給user_j 推薦其可能會喜歡的電影<預測評分較高的movie>
=======================================二、基於內容的推薦=======================================
對每個movie_i引入特徵x(i)=(x1, x2),這種特徵可能表明user對movie類型的偏好:浪漫or動作等
對於每個user引入一個參數theta,然後對評分矩陣的每列(對應一個user)做線性回歸,數據是{ (x(i), y(i,j)) |r(i,j)=1,for some j all i}
像機器學習一樣,x(i)添加個1變數x(i)=(1, x1, x2)
那麼對於未評分的movie_t,我們可以使用線性回歸訓練的參數theta與對應特徵x(t)做內積來得到其預測評分
對每個用戶都訓練一個參數theta_j,優化模型如下:
優化演算法:注意正則項是不約束x(i)=(1, x1, x2)中1對應的參數theta的第一項theta0,所以k=0與k=1,2分別對待
=======================================三、協同過濾=======================================
現在換個角度:如果知道theta for all user j,如何來預測x(i) = (x1, x2) all i
仍然可以使用線性回歸,為訓練每個x(i),需要評分矩陣的第i行數據{ (x(i), y(i,j)) |r(i,j)=1,for some i all j}
theta_j = (0, theta1, theta2) ;theta1=5說明user_j喜歡romance類movie, theta2=5說明user_j喜歡action類movie,只能有一個等於5哦,
我覺得也可以是:theta_j = (0, 4, 1) ;喜歡romance 4 action 1.
對應的優化:
協同過濾:交替優化theta與x
=========================================四、協同過濾演算法=======================================
優化:
優化:注意去掉了theta和x的添加項
=========================================五、實現細節補充=======================================
實現細節:
如果有user沒有對任何電影評分或者所有評分的電影都是0分,那麼所學習到的參數是零向量,
則預測都是0值,這是不合理的。通過 將評分矩陣減去其行均值再進行線性回歸來「避免」這種情況
=========================================六、一點思考==========================================
協同過濾那塊,同時優化theta、x,這樣得到的theta、x還有特定的意義<比如:x是否還表徵對影視類型的喜愛與否>沒有?
回歸中,在x數據上不添加1-feature是不是因為後來引入的平均值化;如果不是,那會對結果有什麼影響?
用x-feature來表徵一個movie,x-feature的各分量的可解釋性;應該會有一部分user應為演員的緣故有一些"偏愛"。
這里,講的"基於內容的推薦"與"協同過濾"跟以前對這兩個詞的認識/所指內容不同,查清楚、搞明白。
這周還會再更一篇關於此節課的演算法實現,會對上述部分問題做出回答。
㈣ 閱讀、電影和音樂的推薦演算法,哪一個更難做
「閱讀、電影和音樂的推薦演算法,哪一個更難做?為什麼?」關於這一問題,小編從諸多網友的回復中為你篩選了最用心、最高贊的回答!快來看看吧~
來看看網名為「幸運的ZLT0502」的網友是怎麼說的:
電影---音樂----閱讀!從我的經驗來看,閱讀是最難做到的,其次是音樂,最簡單的就是電影。當然,是在有很多數據的前提下。從幾個領域的特點來看:1.電影的item數量相對較少,好的電影有很長的生命周期,加上電影社區的用戶行為,視頻網站或預訂網站,都很好獲得,所以特別適合合作過濾。即使這不是一部大熱門電影,你也可以根據導演、類型、明星等製作內容。這些都是結構化的信息,所以沒有難度。音樂的item比電影要多一些,生命周期也非常不同,但它也可以用於基於用戶行為的協同過濾。該演算法如何表達和更新用戶的興趣?如何根據興趣標簽計算推薦結果?至少我沒有看到特別成功的推薦閱讀應用程序。演算法上,都各有難度,但閱讀類的,由於分類太多,在演算法上自然要更加復雜。
來看看網名為「派網友」的網友是怎麼說的:
個人認為無論是基於用戶行為(協同過濾),還是基於內容相似度的推薦演算法,難度從高到底都依次是:音樂-閱讀-電影。
對於ID為「樓船吹笛雨瀟瀟」網友的精彩回答,大家紛紛點贊支持,他是這么說的:
我覺得是各有所難,並不能說哪個難,哪個容易。推薦的成功率:公共決策對推薦的影響:判斷價值的建議:三者各有難度,但是個人在長期的習慣中可以對其中一種或者多種情景中加以選擇和實踐,但這也不是一蹴而就的事情,慢慢來吧。
你贊同哪位網友的觀點呢?
㈤ 推薦演算法有哪些
推薦演算法大致可以分為三類:基於內容的推薦演算法、協同過濾推薦演算法和基於知識的推薦演算法。 基於內容的推薦演算法,原理是用戶喜歡和自己關注過的Item在內容上類似的Item,比如你看了哈利波特I,基於內容的推薦演算法發現哈利波特II-VI,與你以前觀看的在內容上面(共有很多關鍵詞)有很大關聯性,就把後者推薦給你,這種方法可以避免Item的冷啟動問題(冷啟動:如果一個Item從沒有被關注過,其他推薦演算法則很少會去推薦,但是基於內容的推薦演算法可以分析Item之間的關系,實現推薦),弊端在於推薦的Item可能會重復,典型的就是新聞推薦,如果你看了一則關於MH370的新聞,很可能推薦的新聞和你瀏覽過的,內容一致;另外一個弊端則是對於一些多媒體的推薦(比如音樂、電影、圖片等)由於很難提內容特徵,則很難進行推薦,一種解決方式則是人工給這些Item打標簽。 協同過濾演算法,原理是用戶喜歡那些具有相似興趣的用戶喜歡過的商品,比如你的朋友喜歡電影哈利波特I,那麼就會推薦給你,這是最簡單的基於用戶的協同過濾演算法(user-based collaboratIve filtering),還有一種是基於Item的協同過濾演算法(item-based collaborative filtering),這兩種方法都是將用戶的所有數據讀入到內存中進行運算的,因此成為Memory-based Collaborative Filtering,另一種則是Model-based collaborative filtering,包括Aspect Model,pLSA,LDA,聚類,SVD,Matrix Factorization等,這種方法訓練過程比較長,但是訓練完成後,推薦過程比較快。 最後一種方法是基於知識的推薦演算法,也有人將這種方法歸為基於內容的推薦,這種方法比較典型的是構建領域本體,或者是建立一定的規則,進行推薦。 混合推薦演算法,則會融合以上方法,以加權或者串聯、並聯等方式盡心融合。 當然,推薦系統還包括很多方法,其實機器學習或者數據挖掘裡面的方法,很多都可以應用在推薦系統中,比如說LR、GBDT、RF(這三種方法在一些電商推薦裡面經常用到),社交網路裡面的圖結構等,都可以說是推薦方法。
㈥ 推進系統開發實戰中電影系統中用的什麼演算法
協同過濾演算法。推進系統開發實戰中電影系統中用的是協同過濾演算法,協同過濾演算法是最經典、最常用的推薦演算法。
㈦ "電影推薦指數"中的指數是怎麼算出來的
是根據推薦人數來算的!
推薦的人越多指數就越高!
比如10個人推薦那麼指數就漲0.1!
和淘寶上面的指數是一樣的!
指數是一個統稱,和股票數學中的底數都沒有關系!
㈧ 奈飛公司的創新的大數據推薦演算法
第一個Netflix大獎成功的解決了一個巨大的挑戰,為提供了50個以上評級的觀眾准確的預測他們的口味。下一個百萬大獎目標是,為那些不經常做影片評級或者根本不做評級的顧客推薦影片,要求使用一些隱藏著觀眾口味的地理數據和行為數據來進行預測。同樣,獲勝者需要公開他們的演算法。如果能解決這個問題,Netflix就能夠很快開始向新客戶推薦影片,而不需要等待客戶提供大量的評級數據後才能做出推薦。
新的比賽用數據集有1億條數據,包括評級數據,顧客年齡,性別,居住地區郵編,和以前觀看過的影片。所有的數據都是匿名的,沒有辦法關聯到netflix的任何一個顧客。
與第一個大獎賽不同,這次比賽沒有設定比賽目標。50萬美金首先獎勵給6個月內取得領先的團隊,另外50萬美金獎勵給18個月後取得領先的團隊。
推薦引擎是Netflix公司的一個關鍵服務,1千多萬顧客都能在一個個性化網頁上對影片做出1-5的評級。Netflix將這些評級放在一個巨大的數據集里,該數據集容量超過了30億條。Netflix使用推薦演算法和軟體來標識具有相似品味的觀眾對影片可能做出的評級。兩年來,Netflix 已經使用參賽選手的方法提高了影片推薦的效率,這已經得到了很多影片評論家和用戶的好評。
Strands推薦引擎的首席科學家裡克·漢加特納博士寫道:「在短期內,搜索引擎將會越來越多地加入簡單的推薦技術,以處理接近的查詢詞(例如,「您要找的是這個,根據類似查詢/其他人的搜索,你可能要尋找的是這個。」)但從長期來說,而比起搜索行業和搜索技術,推薦技術會更加地無孔不入。」
㈨ 豆瓣電影的評分標準是什麼有何演算法
豆瓣的注冊用戶看完一部電影,心情好的話會來打個一到五星的分(有時候心情不好也會來)。比方說一部電影有42萬用戶打分。我們的程序把這42萬個一到五星換算成零到十分,加起來除以42萬,就得到了豆瓣評分。
這個評分會自動出現在豆瓣各處,中間沒有審核,平時也沒有編輯盯著看。每過若干分鍾,程序會自動重跑一遍,把最新打分的人的意見包括進來。
那42萬用戶里可能包括資深電影評論家,可能包括你、你的親戚、你的小學同學、早晨賣你油條的那個人,也可能包括阿北我個人。但每個人都是一票。這個是「大眾評審團」應該的含義:不是說團里的人全都大眾,而是說和大眾一樣一人一票。
豆瓣的工作人員偶然收到「我明明給這個片子打了五星,為什麼評分一點沒變」的投訴的時候,除了心裡嘀咕一下「哎,你拿這些紅人/獨生子女/八零後/九零後/零零後/數學不好的人怎麼辦」以外,會(或者應該)這樣耐心解釋:評分實際是變了,只是在小數點後四位,被四捨五入掉了。
但如果有幾千個人和你一樣都打五星的時候,分數就會變。
「一人一票」唯一的例外,是豆瓣的程序判斷是「非正常打分」的帳號。這些打分會被排除在外。具體下面會說到。
豆瓣電影評分的主旨和原則,是「盡力還原普通觀影大眾對一部電影的平均看法」。這個主旨過去十年沒變過,將來也不想變。
它並不是專家、影視從業人員或者資深人士對電影的看法,雖然這些看法會被豆瓣算在「普通觀影大眾」之內。所以有次聽到「豆瓣電影評分不專業」的說法的時候,我的反應這是在說「大眾不專業」,應該怪語文才是。個人認為匯總專家意見會是另一個很有價值的服務,但這個確實不是豆瓣評分的宗旨。
豆瓣簡介
豆瓣(douban)是一家社區網站。網站由楊勃(網名「阿北」)[3]創立於2005年3月6日。該網站以書影音起家,提供關於書籍、電影、音樂等作品的信息,無論描述還是評論都由用戶提供,是中國Web 2.0網站中具有特色的一個網站。
網站還提供書影音推薦、線下同城活動、小組話題交流等多種服務功能,它更像一個集品味系統(讀書、電影、音樂)、表達系統(我讀、我看、我聽)和交流系統(同城、小組、友鄰)於一體的創新網路服務,一直致力於幫助都市人群發現生活中有用的事物。2012年,豆瓣閱讀上線,開始進入網上電子書版權領域。
(9)電影推薦演算法擴展閱讀:
豆瓣其他產品
1.豆瓣FM
豆瓣FM是你專屬的個性化音樂收聽工具,打開就能收聽,可以用「紅心」、「垃圾桶」或者「跳過」 告訴豆瓣FM你的喜好。豆瓣FM將根據你的操作和反饋,從海量曲庫中自動發現並播出符合你音樂口味的歌曲,提供公共、私人和紅心三種收聽方式。在紅心兆赫離線也能收聽。
2.豆瓣讀書- 豆瓣讀書自2005年上線,已成為國內信息最全、用戶數量最大且最為活躍的讀書網站。我們專注於為用戶提供全面、且精細化的讀書服務,同時不斷探索新的產品模式。到2012年豆瓣讀書每個月有超過800萬的來訪用戶,過億的訪問次數。
3.豆瓣閱讀
豆瓣閱讀是豆瓣讀書2012年推出的數字閱讀服務,支持 Web、iPhone、iPad、Android、Kindle等桌面和移動設備,自2012年5月7日作品商店上線以來,商店作品達600餘部,用戶評論3000餘篇,有50萬用戶購買過付費或者免費作品。
豆瓣閱讀的現有內容涵蓋了小說、歷史、科技、藝術與設計、生活等多種門類,定位為短篇作品和圖書於一體的綜合平台。
4.豆瓣音樂
豆瓣音樂是中國最大的音樂分享、評論、音樂人推廣社區,擁有最完整的全球音樂信息庫、最權威的用戶音樂評論,和最具創造力的獨立音樂人資源。匯集90多萬音樂條目,包括小凡say、幼稚園殺手、MC光光、呆寶靜等21000多位獨立音樂人入駐,2011年全年平均每5分鍾誕生一首原創音樂,覆蓋粉絲超千萬。
5.豆瓣同城
豆瓣同城是國內最大的線下活動信息發布平台,包括音樂/演出、話劇、展覽、電影、講座/沙龍、戲劇/曲藝、生活/聚會、體育、旅行、公益……專注於一線城市業餘生活方式。
6.豆瓣小組
豆瓣小組於2005年上線,定位於「對同一個話題感興趣的人的聚集地」,至今已有30多萬個小組被用戶創建,月獨立用戶超過5500萬。內容包括娛樂、美容、時尚、旅行等生活的方方面面。用戶在這里發布內容,同時也通過互動或瀏覽,發現更多感興趣的內容。