A. 初學R語言需要用什麼書比較好~怎麼學R語言
首先R是一種專業性很強的統計語言,如果想學得快一些的話,基本的統計學知識要懂,不然很多東西會掌握的比較慢。
掌握基本語法和操作,推薦國內的已經翻譯的比如《R語言實戰》《R語言編程藝術》,這個過程中最好結合一些小例子來做一些分析的東西。其他還有《R語言實例》《R語言核心技術手冊》也都是很好的書!如果需要可視化的話,強烈不推薦學習R本身的作圖系統,實在是太不友好了.....還是用ggplot2吧。
掌握了上面的,就可以深入一些了,如果是做數據分析和可視化,推薦《ggplot2:數據分析與圖形藝術》,這個才是作圖的神器啊.....如果是空間分析相關的,推薦《Applied Spatial Data Analysis with R》,這個如果可以的話看英文版,而且要有地學的一些知識背景,中文版翻譯的太次了,盡量不要看。數據挖掘機器學習之類的,可以看看比如《數據挖掘與R語言》、《機器學習——實用案例解析》,不過我覺得這幾本書沒上面的那幾本好,但是可以大概看看是咋回事,最好還是看看專門的相關書籍,熟悉各種演算法和流程,到時候搜索R的package,照著文檔和例子搞定,不是特別難。
最後,強烈推薦統計之都、R-bloggers,統計之都以及謝益輝、肖凱、劉思喆等人的博客(自行Google以及到上面的網站找鏈接),訂閱一下,會很有幫助,RStudio是個很棒的IDE,用起來很爽,功能很強大。
總之,你可以從《R語言實戰》開始出發吧!
B. 學IT的,寫了一個電影推薦系統,但是為什麼評分預測值大於五
全文以「預測電影評分」例子展開
r(i,j)=0則表明user_j沒有對movie_i 沒有評分,
推薦系統要做的就是通過預測user_j對這些movie {i|r(i,j)=0}的評分來給user_j 推薦其可能會喜歡的電影<預測評分較高的movie>
=======================================二、基於內容的推薦=======================================
對每個movie_i引入特徵x(i)=(x1, x2),這種特徵可能表明user對movie類型的偏好:浪漫or動作等
對於每個user引入一個參數theta,然後對評分矩陣的每列(對應一個user)做線性回歸,數據是{ (x(i), y(i,j)) |r(i,j)=1,for some j all i}
像機器學習一樣,x(i)添加個1變數x(i)=(1, x1, x2)
那麼對於未評分的movie_t,我們可以使用線性回歸訓練的參數theta與對應特徵x(t)做內積來得到其預測評分
對每個用戶都訓練一個參數theta_j,優化模型如下:
優化演算法:注意正則項是不約束x(i)=(1, x1, x2)中1對應的參數theta的第一項theta0,所以k=0與k=1,2分別對待
=======================================三、協同過濾=======================================
現在換個角度:如果知道theta for all user j,如何來預測x(i) = (x1, x2) all i
仍然可以使用線性回歸,為訓練每個x(i),需要評分矩陣的第i行數據{ (x(i), y(i,j)) |r(i,j)=1,for some i all j}
theta_j = (0, theta1, theta2) ;theta1=5說明user_j喜歡romance類movie, theta2=5說明user_j喜歡action類movie,只能有一個等於5哦,
我覺得也可以是:theta_j = (0, 4, 1) ;喜歡romance 4 action 1.
對應的優化:
協同過濾:交替優化theta與x
=========================================四、協同過濾演算法=======================================
優化:
優化:注意去掉了theta和x的添加項
=========================================五、實現細節補充=======================================
實現細節:
如果有user沒有對任何電影評分或者所有評分的電影都是0分,那麼所學習到的參數是零向量,
則預測都是0值,這是不合理的。通過 將評分矩陣減去其行均值再進行線性回歸來「避免」這種情況
=========================================六、一點思考==========================================
協同過濾那塊,同時優化theta、x,這樣得到的theta、x還有特定的意義<比如:x是否還表徵對影視類型的喜愛與否>沒有?
回歸中,在x數據上不添加1-feature是不是因為後來引入的平均值化;如果不是,那會對結果有什麼影響?
用x-feature來表徵一個movie,x-feature的各分量的可解釋性;應該會有一部分user應為演員的緣故有一些"偏愛"。
這里,講的"基於內容的推薦"與"協同過濾"跟以前對這兩個詞的認識/所指內容不同,查清楚、搞明白。
這周還會再更一篇關於此節課的演算法實現,會對上述部分問題做出回答。
C. R語言的編輯器有哪些哪個比較好
《R語言4.0.4軟體》網路網盤資源免費下載:
鏈接: https://pan..com/s/160twe4ScMvIbGm2TI_sjHw
R語言4.0.4是一款專業的統計建模軟體,與其它建模軟體不同的是這款軟體完全免費、開源,所以深受大家的青睞。R軟體擁有數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計制圖等多種功能,主要用於統計分析、繪圖、數據挖掘。標準的安裝文件身自身就帶有許多模塊和內嵌統計函數,安裝好後可以直接實現許多常用的統計功能。
D. 大數據培訓到底是培訓什麼
一、基礎部分:JAVA語言 和 LINUX系統
二、數據開發:
1、數據分析與挖掘
一般工作包括數據清洗,執行分析和數據可視化。學習Python、資料庫、網路爬蟲、數據分析與處理等。
大數據培訓一般是指大數據開發培訓。
大數據技術龐大復雜,基礎的技術包含數據的採集、數據預處理、分布式存儲、資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。
2、大數據開發
數據工程師建設和優化系統。學習hadoop、spark、storm、超大集群調優、機器學習、Docker容器引擎、ElasticSearch、並發編程等;
課程學習一共分為六個階段:
7