1. 怎樣預測票房
票房預測:需求與現實
從1896年西洋影戲傳入上海徐園,到1905年中國拍攝首部國產電影《定軍山》,再到2013年全國電影票房突破200億
大關,(4)有著百餘年歷史的中國電影產業,在近幾年呈現出飛躍式發展的態勢,無論是影片質量、院線建設還是投資規模都有了長足的發展。與此同時,隨著
「大數據」時代的到來,電影觀影群體、觀影偏好與心理、電影信息傳播和獲取方式也都在發生著深刻的變化。
毋庸置疑,多樣化資本的加入是中國電影不可或缺的發展引擎,然而,電影行業以投資回報率難以預測著稱,大投入未必有大產出,票房預測工具的缺失使得投資者
無法有效對沖投資風險,華人著名導演吳宇森的《風語者》就拖累了米高梅公司最終走向破產。因此製作與發行公司不得不考慮所有對票房有影響的因素:辣媽李小
璐對《私人訂制》票房貢獻幾何;《風暴》票房為何遠低於其金牌製片人江志強預期;被吐槽「爛片」的《富山春居圖》和《小時代》緣何票房卻一路走紅;成龍大
叔的《警察故事2013》有無必要拍成3D;《泰囧》的「報復性」觀影效應能否復現……這一切的一切其實都可以從「大數據」中找到答案。因為網路上的每一
次瀏覽、查詢乃至點擊所匯聚成的群體智慧都「蝴蝶效應」般地影響著電影的最終票房。
2013年Google在一份名為《Quantifying Movie Magic with Google Search》(5)
的白皮書中公布了其電影票房預測模型,該模型主要利用搜索、廣告點擊數據以及院線排片來預測票房,Google宣布其模型預測票房與真實票房的吻合程度達
到了94%,但並未見其公開對未上映電影的預測結果。
搜狗公司藉助「深思」系統,建立了更為復雜的模型,用於預測國內電影票房,並在新浪微博上提前發布了2013年12月國內上映電影的首周票房預測結果。很高興到目前為止預測結果與真實數據非常接近,同時,我們的模型還可以用於對影響票房的因素進行定量分析。
搜索查詢量的奧秘
搜狗搜索每天都響應上億次的搜索請求,查詢詞的分布和變化趨勢能夠很好的反映出中國網民的興趣點和關注指向。與Google的研究類似,我們也發現,電影
上映前相關查詢詞的搜索次數與票房收入有著很強的關聯性。這一點很好理解,用戶的主動搜索行為體現了用戶對這部電影的潛在興趣。
我們選取了2013年1-11月國內上映的180部電影的票房和上映前的搜索量數據作為訓練集,用於訓練一個基礎的線性回歸模型。實驗發現,單純利用搜索
量訓練得到的模型,預測得到的首周票房與真實票房的相關度R方值僅為68%,這與Google僅用搜索數據得到的結果70%很接近。(註:R方值取值為0
至1,值越大表示模型預測效果越好),這個結果也說明無論在中國還是美國,用戶的搜索行為是很相似的。
用搜索量來進行預測票房是一個好的開始,但是准確度還遠遠不夠。同時很多搜索詞還存在歧義的情況,比如《生化危機》,既是電影也是游戲,混在一起會造成票
房預測值偏高。進一步研究發現,游戲意圖的查詢請求量較為平穩,但電影意圖的查詢請求在上映前則有一個高峰,也可以通過用戶點擊的URL來進一步確認用戶
的搜索意圖。因此模型需要再引入查詢量的變化趨勢和用戶點擊的分布情況。修正後的模型可以達到74%的准確度,這時模型已經可以對電影票房進行一個粗略的
估計。
社交媒體:用戶的情感分析
社交媒體數據對票房預測也會有一定幫助。假設你是某個明星的粉絲,打算去看他主演的電影,那麼你很可能會提前轉發該電影的相關微博給你的朋友。國外已經有
很多預測項目都是在針對Twitter數據做研究,這里我們主要採用國內部分微博網站的數據來進行預測。通過自然語言理解技術,分析出用戶對未上映影片的
情感傾向,從而轉換為用戶的觀影需求。進一步可以考慮的因素包括微博轉發深度、評論活躍程度,以及相關微博數量隨電影上映日期臨近的變化趨勢,這些數據都
可以被有效的提煉為特徵並加入到模型中。
微博數據的加入使得准確率超過了80%。
結語
預測專家納特·西爾弗在《信號與雜訊:大數據時代預測的科學與藝術》一書中提到,大數據時代的預測更容易失敗,大部分失敗的預測都源於一種盲目的自信,用精確的預測來冒充准確的預測。
對此我們有著清醒的認識,目前的票房預測模型還有若干需要改進的方向。首先,目前模型的主要思想是通過電影上映前的用戶關注度來推算首周票房,這實際上沒
有考慮電影上映後的口碑對票房的影響;其次,模型較為依賴歷史數據,可能難以識別一些上映後脫穎而出的小成本「黑馬」電影;再次,目前的技術只能提前10
天預報出首周票房,還可以更加超前。
總體而言,「深思」系統代表了搜狗公司在社會化預測方面一些新的嘗試。我們試著從繁雜的海量數據中篩選出真正的信號,努力穿越不確定性的迷霧,區分出未來
圖景的哪些部分可以預測,哪些不可預測。通向這個未來的道路還在探索之中,但目前工作已經取得了一些不錯的進展,並給予了我們更大的信心。
2. 電影票房預測系統的電影票房如何預測
早在80年代,美國票房收入預測的先驅BarryLitman對美國80年代近700部電影進行分析推出票房收入預測模型。該系統對之後美國電影投資界產生了顛覆性的影響。電影票房預測系統能分析預測不同種類電影的票房價值,已經成為國際電影產業投融資的重要參考工具,對電影產品定價及衍生產品開發都具有較強的指導作用。
3. 電影票房預測系統的介紹
電影票房預測系統,美國票房收入預測的先驅BarryLitman對美國80年代近700部電影進行分析推出票房收入預測模型。
4. 如何專業地預估票房
圖1. 2012年票房收入與搜索量的曲線 (紅色是票房收入,灰色是搜索量,橫軸是月份,縱軸是數量) 經過改進後的模型: 圖2 提前一個月預測票房的效果 (橫軸是預告片搜索量,縱軸是首周票房收入,灰色點對應實際某部電影的首周票房收入,紅色點對應預測的首周票房收入) Google可以通過這個模型提前一個月預估出電影票房,不過如果是在拍電影前就預估票房,可能不太現實,之前有個問題也回答過,其實演員在拍一部好片或者爛片的時候,心態是差不多的。在沒開拍電影前,就預估票房,很可能本身就是個誤會。
5. 電影票房分析及預測
在缺少衍生品市場的當下,電影投資主要以票房為主要收入來源,因此前期的票房預測就顯得十分重要,能讓投資者提前預判項目的大致受益,並通過合適的宣發手段來提高影片的關注度,以便提高最終的票房收入。
新傳智庫自主研發的票房預測系統就從去年11月份開始,以影片自身題材、主創陣容、大盤、檔期、口碑、對手、首日及首周市場表現等為主要依據,對部分上映新片進行票房預測。雖然仍與實際結果有一些出入,但部分結果卻做到了高度的精準,可以此為基礎詳細解釋一下票房預測的思路、要點等。
映前主創信息—模糊分類,預測票房起點
由於此時影片很多都尚在製作階段,一般意義上,只能按照影片的題材、主創陣容、演員明星等推測影片的題材與體量,僅能大致分為大型製作、中等製作、小成本三大類,但這一指標卻具有極大的不確定性與不穩定性,且預測難度也是逐步上升。
大成本製作,一般都有著大筆特效投入、知名導演明星參與,有的還有著一定的IP基礎,無論哪一方面都能吸引到大量的關注,因此其票房成績總體已經維持在了一定的水平,票房起點應該在5億以上。
相比於大製作,中等製作一般是輕工業產品,可能會有一些名導與明星共同參與,題材內容方面貼近現實,一般多為喜劇片、愛情片、劇情片,缺少武俠、動作、科幻、奇幻等題材所需要的大場面特效的加持。
中等成本製作總體較難預測,票房區間從千萬級別到億元級別都有分布。此時演員、導演的因素一般會被放大,明星雲集的影片更容易在同類型中獲取更多關注,《我不是潘金蓮》、《擺渡人》等都屬此類;同時,喜劇片的成績普遍要好於愛情片、劇情片等其他類型,可適當加分,如去年的《從你的全世界路過》和《奔愛》都主打明星牌,但的8.14億和4751萬的成績卻有著天壤之別。
而小成本製作則相對即簡單有困難,從題材到主創的毫無新意使得其註定要成為徹徹底底的炮灰,票房成績也均在一千萬以下,多數進口批片、國產劇情片、恐怖片等都屬於這種行列。但其內部之間仍然有著較大的差異,根據大盤、檔期、對手等的變化仍有小幅的波動,很難利用現有指標精準預測其最終成績。不過對於此類製作而言,精準預測的意義也並不大。
映前第三方指數—縱向對比,預測票房區間
第三方指數(如貓眼想看指數、網路搜索指數等)反映的是觀眾對於影片的關注度與認可度,極有可能轉化為電影的實際票房支持,因此據有較高的參考價值。
對於貓眼想看指數,一般從影片正式上映一個月左右,就可以作為有效的參考指數。
指數長期保持在高水平(一般日增想看指數維持在3000人以上)則是所謂的大片,其最終市場表現往往取決於口碑,口碑好的話會在一般水平上有所上揚,口碑不理想的情況下,自然就會有一定程度的縮水。
而映前短期內(一般為一周左右)相關指數暴漲的影片其更容易成為爆款,在預測這類影片票房成績時應適度擴大其預測值,但卻很難估測其最終的落腳點,最重要的是看同期競爭影片的表現。
對於每日日增想看人數僅在幾百左右的影片,則應已經註定了其票房成績難有起色。上周五上映的三部新片可以明顯的反映出這種趨勢(對於小成本而言,這一指標的參考意義並不大,相關平台一般缺少相關數據,難以以此做出有關的推論):
而網路搜索指數更多的是整體反應票房的大致趨勢,常用於與其他已上映影片的對比分析,以最近上映的三部進口大片《金剛狼3:殊死一戰》、《生化危機:終章》、《極限特工:終極回歸》為例,可以發現《金剛狼3》的映前的熱度明顯低於後兩這,因此其在票房上也難以達到兩者的成績。
第三方指數,僅用於初步判斷影片的熱度,最重要的意義來源於與相關影片的精準對比,數字本身與最終票房之間並沒有特別確定的函數轉換關系。
大盤趨勢與對手實力—小幅調整,縮小預測范圍
大盤的走嚮往往反映著整體的體量,約束著一段時期內電影市場天花板的高度,因此對於單個影片的影響程度較高,春節檔多方廝殺仍然平均分力,就在於市場容量的巨大,這也正是眾多影片搶占檔期的重要因素所在。
除了檔期以外,各月份也是有好有壞,3月、9月、11月等都是著名的淡季,全月的總體量在20——30億左右,萎靡的大盤難以被眾多影片平均分割,其票房成績自然也會有所下滑。但此時大盤的主要限制的是中等製作與小成本影片,大製作反而更因為觀眾選擇面窄小而獲利。而對大盤進行預測時,一般可參照去年同期的總量,並根據增勢做相應的調整。
除此之外,對手的實力也是影響票房的最重要因素。《功夫瑜伽》能夠力壓《西遊伏妖篇》登頂春節檔冠軍很大一部分原因在於《西遊伏妖篇》的口碑不足。市場熱度和總量一定的情況下,重點影片的差評自然會催動其他影片成為「爆款」。
而同類題材也是重要對手,《金剛狼3》的成績不如《極限特工:終極一戰》、《生化危機:終章》;去年的《佩小姐的奇幻城堡》遠低於《奇異博士》和《神奇動物在哪裡》等都有觀眾審美疲勞的原因在裡面。因此,在這種情況下,即便影片口碑不俗,仍需調低票房預期。
上映首日排片、首周末票房——完全鎖定票房成績
以上的預測都處於前期階段,在影片正式落地之前,誰也無法比較精確的預測影片的最終票房成績,但到了影片正式上映之後,則一切都有了較為明顯和科學的依據。
雖然排片並不能決定一部影片的生死,但卻無疑有著極大的左右能力,限制著影片的市場發揮空間,是市場專業人士的預判。
一般情況下,排片佔比與票房佔比之間存在著一定的一致性,但馬太效應明顯。通俗而言,占據市場4成左右排片的影片一般會貢獻出5——6成,甚至是7成的票房;排片在2成左右的影片,其票房成績與排片佔比大致相同,而排片在1成以下的影片,通常其票房貢獻量會低於5%。
多數影片都集中於周五上映,恰逢大盤最火熱時期(個別節假日及檔期除外),而首周末三天口碑已出、接下來的工作日整體低迷、周五面臨新片沖擊,因此已經可以看出其市場走向如何了。
總體而言,對於一般的大型製作,其首周末票房占總票房的比重一般會在40%——50%;中等成本因為其本身的不確定性,用此方法相對較難以預測,但首周末票房所佔的比例一般都會在60%——80%之間。而對於小成本,其首周末票房的佔比有時會高達90%。
以2016年票房過億的85部影片為例,其首周末票房佔比分布如下(已祛除部分上映日期異常影片):票房成績在10億以上的影片,首周末平均佔比為31.09%;5億——10億之間,為45.24%;1億——5億之間,平均為63.03%。
此時還需要考慮的一點就是後續長尾效應。多在於其上映的第二周有沒有強勁的足夠挑戰影片時長份額的大片上映,如果沒有的話,影片的影響力可能會持續,尤其是在下周末會引來一次小的高峰,幫助影片的總體成績提升。
6. 如何評價電影票房預測模型的發展和建設瓶頸
從我們的分析與實際操作來看,實際上對電影票房預測模型的發展與建設造成最大阻礙的在於數據的不真實性、指標的選擇可用性以及一些違規暗箱操作上;還有譬如電影市場的發展速度太快,去往的歷史數據可參考性低,模型得跟著市場的變化而變化等這些方面,在我們建模時造成了極大的阻礙。而基於我們的電影票房預測模型,我們的預測有相當的准確性與可信度。從2015年7月到現在我們每天都會公布我們的票房預測結果,在於競爭對手的比拼與較量中始終保持領先地位,准確率一直保持全國第一。而我想,如果當數據、指標、操作開始正規化明朗化,電影票房的預測模型也將越做越好,越做越准。