Arcanis 的部落格

Term Project Report

  班級:資工碩一
  學號:497516020
  姓名:李宗熹

  主題:Recommendation(推薦與評價機制)

  (不要懷疑,共筆區的推薦都是我編的...)
  隨著網際網路的盛行,越來越多使用者漸漸的習慣使用網際網路的平台,而web2.0的觀念於2004年由O'Reilly Media提出之後,越來越多的訊息分享、知識的貢獻與參與、商業的交易與合作等行為,皆成為目前網路應用上最熱門的話題。為了確保網際網路上傳遞訊息的可信度,辨識網路上人類的行為是否可靠,並降低網路的方便所帶來容易取得錯誤的訊息及非法行為的詐欺等風險,需要有一個機制能夠紀錄網路平台上行為的歷史軌跡,並提供交易行為者之信任程度資訊供他人參考,以便減少網路行為互動的負面影響,信譽評價系統(Reputation System)即是提供此相關訊息供使用者參考,並使降低交易失敗的機率。

  目前評價與推薦機制主要應用在服務資訊與內容評論的品質(如線上拍賣、評論系統、共同合作平台等)或群體及個體貢獻之程度(如P2P系統,分散式網路架構等),記錄了使用者於平台上所有的行為歷史資料,並將正向或負向的行為結果計算為可信任程度讓其他使用者供參考。簡言之,評價與推薦機制提供了幾項功能:  

  • 蒐集整理關於使用者之間行為互動的一切歷程回饋。
  • 檢測彼此間的信賴程度,例如信譽評價(Reputation)或推薦(Recommendation)。  
  • 避免惡意及自私的行為(如蓄意中傷他人或過度褒揚自己等)。
  • 用以增加該系統(服務)的名聲以及使用保障。

以下為目前已存在的其中幾種評價系統示意圖:

  • yahoo!拍賣(信賴百分比):
      針對拍賣系統的評價制度,以yahoo!拍賣作為說明範例。其評價方式是以使用者的正面評價百分比,來作為一名使用者在此拍賣系統中的評價等級,計算方式如下: 
  • (正面評價 - 負面評價) / 評價總數 x 100%。

    其中重複由同一買家(賣家)給予的評價只會顯現在交易記錄中,並不會再次列入此百分比的計算之中。

    評價系統_1

  • YouTube(影片評價):
      在影音系統的評價方式中,在這裡我們舉YouTube作為評價的說明。在YouTube中,針對各個影片的評價方式為:以登入使用者對該影片所給予的星等(1~5★),將其星等總數作平均的來呈現一部影片的等級。
  • 評價系統_2

  • Amazon(書籍評價):
      針對書籍的評價方式,在此以Amazon(亞馬遜網路書店)作為代表。其計算方式與YouTube的影音評價類似,同樣使用星等作為一本書的評價方式,而將滑鼠指標移至評價區觀看時,系統將會自動呈現各星等的評價人數以供再次參考(YouTube則需使用者自行點及詳細內容才能看見各等級的評分人數)。
  • 評價系統_3

  • YouTube(comment評價):
      在評論的評價計算,取自YouTube的comment區作為說明範例。針對一篇評論的評價給分,其給分方式為利用其他登入使用者的評價作為計算,一名登入使用者只能對一篇評論進行一次評價,只能點選(好or不好)兩種選項,最後系統會將2種分數相減,呈現最後結果為正評或負評以及該評價分數於評論後端。
  • 評價系統_4

  • 巴哈姆特電玩資訊站(會員資料):
      資訊社群網站部分,利用電玩資訊網站 - 巴哈姆特中的會員社群作為範例。該網站中每當會員發布或回應了一篇良好文章或是圖文作品時,其於會員可以根據內容選擇是否給予1GP(Good Point)作為鼓勵,每位會員所累積的GP數將顯示在個人資料欄的下方;而在部分子社群中,若一篇討論串的發起會員認為有惡意會員針對該討論串回應了不當言論 (謾罵、騷擾...等),該討論串發起人可選擇給予該會員BP(Bad Point)以視懲罰,每位會員所累積的BP數同樣將顯示在個人資料欄的下方。
  • 評價系統_5

  • aNobii網路書櫃(相似使用者):
      網路書櫃在此列舉了aNobii為例。此網站可供使用者建立自己在網路上的虛擬書櫃,方便使用者對於已讀過或是本身擁有的書庫做整理,其中特別之處在於,該網站會自動幫使用者列出與自己讀書興趣相似的其他會員,利用將每位會員彼此擁有的書籍,透過運算的方式篩選與自己品味相近的會員,建立讀書者的網路社群關係。(計算方式未明)

  儘管aNobii與前述幾種由使用者自行評價的給分方式不同,之所以會在此處提出來主要是對它可以針對不同的使用者,可以計算分數來推薦鄰居的一個方式感興趣,雖然到現在還不知道它計算的依據是根據什麼,不果可以大智推出是利用使用者的藏書與對於書的評分,使用分類計算的醫個方是來找出與使用者分數相鄰近的其他會員,在想或許可以做為自己之後在分類評價部分得一個參考機制。
  在大致介紹完目前存在於網路中的評價方式之後,針對目前網路評價系統中要處理的問題在於:
‧在資訊程度不一的網際網路中,一份資訊內容的價值好壞評估?
‧在不熟悉對方情況下,可信任以及交易的對象信賴度?
‧專業人士的評分與一般使用者的評分參考程度依據?

  而這個部份則是接續陳逸州學長的碩士論文來作延續,主要是以考量標的物件分類與時間為基礎的信譽評價架構, 由時間的考量,讓離現在越久遠的交易評價作適度的衰減,以保存較高參考價值的評價值。其內容與公式,由於老師已經相當熟悉因此就不再多提。而在之後的接手工作中,主要是想對於時間的衰減值,以及分類方式的計算再做進一步的分析與計算,如:
‧根據鄰近兩次交易的時間作運算
‧在拍賣系統中加入以金額分群,各群組分別作衰減動作的運算
‧各類評價系統依其類別分別加入不同參數
‧依照商品稀有度不同的分類衰減
‧依照使用者月收入與支出的衰減係數計算
‧另外找尋其他參數的加入

  在金額分群的部分想在特別提一下,主要是受到使用者在使用網路拍賣系統時,自然會受到物品的單價影響購買的欲望,因此針對單價高的物品以及低價位的物品,希望能找出價位分界點並將其分類的方式來做分類評價的動作。
  推測可能得到的分群結果會類似下圖的方式,此圖是利用WEKA中分群計算並使用K-means的計算結果,主要會分成低價位高購買數量(右),以及高價位低數量(左)的結果,再將其結果取得中心點來作為之後購買商品價位歸類的一個參考,當然會隨著使用者每次的交易做動態的變動,目前僅是一個示意圖,實際的數據與執行結果都還有待觀察。

K-means示意圖

  當然商品的購買數量也會歸屬於計算的內容之中,但是要依何種方式以及哪種參數來坐評估都還在研究之中,因此老師在報告時向我提出的問題:在利用金額分群方式要考量的因素有哪些?其實除了購買的商品數量之外,我原本還加入了考慮商品市場流通性、被購買頻率、生活性等因素都有想過,所以在老師提問時一時之間反而不知道要回答哪項。
  而最後要注意的是,在這些機制設想完成之後,是否真的能提供更為準確且更為客觀的信譽評價機制,並增加使用者與資訊提供者之間的關係性?以及在更加完善的機制完整定義後,能否真的套用至多數的評價系統中,來取代舊有的評價機制?更要考量是否會因為機制過於複雜,反而導致使用者對於評價制度感到疑惑與不信任? 這些的想法可能都需要再思考一下,或是在跟老師討論以釐清自己的疑慮。

推薦好書 - 資訊架構學

  之前克剛學長曾推薦給我這本書,卻一直沒有時間去讀。日前利用了一點時間去google圖書找了電子版本稍微翻了幾頁,感覺是還不錯的一本好書~有空的話應該會去買本實體書放在身邊閱讀(比起電子書,個人還是比較喜歡手上有書的感覺)。

  這本書的內容比較著重在應用層面而非技術層面,解說應該如何處理網站的架構,如:網站的架構原理、標籤使用、詞彙選擇,讓使用者可以更方便的來使用網站。最後更進一步的往商業流程以及建構線上社群來說明,感覺應該是身為網站使用者及開發者都應該看的好書,推薦給大家以及學弟妹們。

※ google圖書版本:http://books.google.com.tw/books?id=uRiQdLR-rY4C&printsec=frontcover#PPP1,M1
 O'Reilly官方網站版本:http://www.oreilly.com.tw/product_web.php?id=a123

WEKA的補充

  之前在presentation的時候有學長報告過WEKA這套軟體,個人覺得不是報告的很完整,也沒有把WEKA的特色點出來,在此稍微的將此系統略為補充一下。

  首先,曾經修過梅老師去年研究所開的課,或是徐嘉連老師開的資料探勘課程的人應該都對這套系統不陌生。WEKA是一套方便用於針對資料作探勘動作的一套軟體,其軟體可在WEKA官網免費下載得到,其軟體內有內建部分簡單的資料庫供初心使用者上手,而想要更多的資料庫也可到UCI上面去找尋。

  而WEKA最大的特點除了可以利用內建的數十種演算法幫助使用者完成分類claasify、分群cluster、關連性associate...等之外,另一個特色就是圖形化結果的功能。由於是資料探勘軟體,基本的數據化結果自然少不了,但WEKA不但能利用各種資料探勘方式將解析出的數據結果呈現在結果區外,使用者還可自行選擇是否要以圖型化的方式來觀看探勘結果,如下圖便是將zoo這個資料庫做分類最後所得出來的十幾種圖像化結果數據之一。

WEKA_example1
( WEKA範例 _ zoo資料庫最後區分出各種動物type的結果圖 )

  不論哪種資料庫,WEKA都可以將資料產生出類似上圖一般的各類型圖像資料,而WEKA還可依不同探勘方式以及不同的演算方式結果產生出不同的結果圖來,例如:使用C4.5演算法來做分類的動作,通常可以獲得最後分類結果的樹狀圖型;利用KMeans來作分群的動作,通常可以得到分析資料的群落圖...等。但需要注意的是,並非所有資料庫都可以符合各類的探勘方式,每種資料都有適合自己的分析類型,因此想要做資料探勘的動作也是要先做好功課,使用者要先知道該資料庫可能以及可以分析出分群?還是分類?關連性?的結果再進行分析比較好,不然通常只會得到一團擠在一起的莫名其妙數據罷了。

WEKA_example2
( WEKA範例 _ zoo資料庫利用分類所得出的樹狀圖 )

WEKA_example3
( WEKA範例 _ zoo資料庫利用分群分析卻只能得出一團模糊的結果 )

Akinator

我絕對不會說有一天凌晨WECO的成員都在 " 研究 " 這個東西!!
http://en.akinator.com/#

一開始是在ptt小遊戲版出現的, 後來被轉到一堆怪怪的版上(eg.數字版、海賊版、表特版?)去後人氣大增.
使用者先想一個人物, 之後網站會利用不斷問問題的方式來猜你所想的人物,
最後此網站會將你所想的人物顯現出來, 測到現在準確率大概有90%以上.

主要應該是利用資料探勘以及classified的方式來找尋目標,
不論其他選項, 單純以yes及no來分的話...
如果問20題就有2^20次方, 就可以比對1024x1024筆資料了~
應該是算單純的data mining的應用.

不過可以蒐集到這麼多筆資料也算是高手了...(不過多半應該都是網友上傳的資料)
目前測過:Boss, 孫燕姿, 哥吉拉, 國父 孫先生, 莉娜因巴斯, 蘿菈, 賽菲羅斯, 緋村劍心, Steven Job... ... ... ... ...

頁面