hornacik 的部落格

9.26報告

這禮拜的報告,以報告目前我的研究進度為主,將我現有的一些想法試著條列出來,希望能逐漸縮小範圍找到可研究的問題。

目前想試著把social network與cloud computing兩者做結合找出可研究的題目。

一個介紹SVM的網頁

SVM(Support vector machine)通常用在machine learning。

是一種監督式學習(supervised learning)的方法,主要用在classification和regression上。

對於分類(classification),可以對不知道以什麼為分類依據的東西做分類。

大家可以參考這個網頁(http://ntu.csie.org/~piaip//docs/svm/),對於SVM的入門應該會有概念。

網站排名的網站

由於網路的盛行,每個人每天花在網上的時間非常多,每天有非常多的網頁、網站產生,在這麼多的網站中,使用者應該以什麼為依據去參考網站呢?


這個問題是很多人心中常有的問題?因此產生了Ranking的概念。有了Ranking,使用者可以拜訪排名較高的網站,網站的開發者可以藉由排名去了解怎樣才能使網站做的更好。


一般我們都聽到google有一套對網頁排名的機制,那網站呢?是否有對網站排名的機制呢?


Alexa是一個提供各個網站相關資訊的網站,同時也對網站做排名,大家可以去看看這個網頁(http://content.ndap.org.tw/index/?p=418)對Alexa介紹算蠻詳細的。

Alexa官方網站:http://www.alexa.com/

對 Social Networking Web發展,四個一定要知道的秘訣

對 Social Networking Web發展,四個一定要知道的秘訣

1.提供來觀賞網站的訪客有用的東西
-有實用或吸引人的內容
2.提供一些有趣的東西,讓遊客停留在你的網站
-有些網站會有一些線上遊戲、視訊、或音樂吸引使用者在網站停留大量時間
3.可以容易找到朋友且溝通方便
-Social Networking Web主要就是讓人在網上Social,所以在網上容易找到朋友是很重要的。其中有一點很重要,就是使用者介面和瀏覽方式應該以簡單易於了解最好,因為不是每一個人都是精通電腦的使用者
4.不要讓你的訪客在你的網站等
-很多網站由於有太多超過負荷的圖,造成讀取網頁慢,這樣的情況,即使網頁再怎麼好,也會讓使用者用的意願低

參考來源:
http://www.cheapestpcrepair.com/wow/2008/12/24/4-must-know-tips-for-soci...

期末專題

主題:TESTING AND REGRESSION TESTING FOR WEB SERVICES BASED APPLICATIONS

問題:WEB SERVICES非常的多,SERVICES之間是如何運作、互相關聯成為一個符合需求的應用?

動機:接近期末時,正好接觸到WEB SERVICES,想去了解WEB SERVICES到底是什麼樣的概念?

方法:從PAPER去探討WEB SERVICES的TESTING和REGRESSION TESTING

預期結果:了解WEB SERVICES 的TESTING 和 REGRESSION TESTING

結果呈現方式:WEB SERVICES的TESTING 和 REGRESSION TESTING建立MODEL

[Lab I1] 讀書心得 - 隨意搜尋

《隨意搜尋》這本書的書名很有趣,直接的點名了這本書的核心:”找”。生活中,找,這樣的動作是常常發生在我們身上,東西現在在哪裡?東西的位置和時間是”找”,能否成功的關鍵。什麼樣的時間點應該對應在哪一個位置是非常重要的。

“可尋性”是找這樣的動作所延伸出來的,書中提到許多的可尋性,關鍵字的可尋性、自然環境的可尋性、行為的可尋性、研究的可尋性、描述的可尋性‧‧‧等如何在某一時間點某個位置找到想找某一件事或物的可能性。一件事或物有了可尋性,就越能讓人發覺和了解它。但是每一件事物的可尋性有很大程度的不同。如何找出我們需要事物會依可尋性有難度上的差異。

[Lab I1] 讀書心得 - 我們比我聰明

《我們比我聰明》此書的軸心,是群眾的集體智慧會超過單一個人的智慧。網路的發展,越來越蓬勃,人與人之間可以藉由網路,達到彼此交流。在這麼大的一個平台裡,有許許多多的人,每一個人都代表一個智慧體,如果將這些智慧整合起來,運用這些智慧,對產業、學習、生活等各個層面,會產生許多有趣的化學變化。

書中主要針對產業的部份去探討,以許多企業如何將群體智慧融入產業原本的體系中,讓企業在成本的降低、行銷的運作、知名度的增加、設計開發時間的減短等各個層面能得到提升。書中以很多公司為例,亞馬遜、寶僑、維珍電信‧‧‧等許多的企業紛紛良好的運用網路上廣大的群體智慧,而使企業呈現新氣象。

Lab T1 : Exercise.2-4 Exercise.3-5 & 3-6

組別:第五組

組員:林塏鈞 劉翃瑋 曹國輝

 Exercise.2-4

STEP1:先運用pydelicious.py的其中某些功能下載關於del.icio.us的相關資訊,至於要下載那一類資訊則由使用者輸入的Tag來決定pydelicious.py裡的第一個initializeUserDict功用是選出以Tag為準的熱門網站,再把這些網站相關的網站擷取出來,利用擷取出來的的網站找出他們的User有那些,再把這些User建立一個Dataset,注意!此Dataset中格式為 ” user{空白}...,空白的部份沒有資料的,此時要用第二個fillItems把空白填滿,填滿的內容是這些Users所有Post過的網站,格式如 “user{網址 , 網址 , 網址...}...。到這裡我們已經建立了一個以Tag為基準的相似Dataset了。

STEP2:我們要作的是把第一步中建立起來的Dataset運用transformPrefs這個函數反轉,格式如網址:{user , user , user...}...。

STEP3:是利用第二步反轉後的Dataset建立item-item的相似值紀錄表這個功能主要是把每一個網址和除了自己之外的所有Dataset中的網址之相似值都找出來且紀錄成一種Dataset的模式,格式如 網址1[(相似值,網址2) , (相似值,網址3) , (相似值,網址3) , ...]...。

STEP4:在有了item-item的相似值紀錄表就可以去對不同的使用者作推薦網站的動作了,運用函數叫getRecommendedItems

 

結合上面四個步驟的執行如下列附件圖示:

1.jpg:建立Dataset中的Users部份。

2.jpg:建立Dataset中的網址部份,反轉整個Dataset,計算相似值。

3.jpg:rodrigoIkari這個User作推薦。

4.jpg:對mailamig這個User作推薦。

5.jpg:對getpost這個User作推薦。

 

結論:(Item-base和User-base運作的差別)

Item-BaseUser-Base最大的缺別是在Item-Base中不管我們對多少Users作推薦動作,都只需要計算一次的相似值,而且在整計算推薦的過程中,我們只需要處理Dataset中的小部份集合,相對於User-Base則需要比較一個User和其它Users,然後在去處理Items的部份,可以說是整個Dataset都在進行處理,這樣如果在一個很大筆的Dataset中作推薦時會花費相當多的處理時間,所以在需要對很大量的資料作很複雜的處理時,Item-Base是節省時間多了。在另一些方面Item-Base可以對某些部份的計算作預先處理的動作,我們從上面的執行推薦中可以看到,所以的相似值紀錄都是預先作好的,而在推薦給不同的Users時我們因為相似值已計算好了,所以不需要再去計算相似值了,相對於User-Base則需要每次推薦給一個User時都去計算一次相似值,這種處理的方式感覺上像是計算了很多重複的部份。最後一點要說明的是,一般來說在Item-Base的情形下,由於是對Items作相似值計算,而通常在各方面運用中(尤其是商業應用)Items是變動比較不大的部份(有些也可能完全不會有變動),因此只需要一段時間紀錄一次Items的相似值即可,相反的如果對User作相似值的紀錄就需要即時的進行變動計算,因為Users往往是變動性比較大的,這些變動可能是來自Users的行為模式改變,或者喜好度改變,或者經驗改變....許許多多的變動因素都會影響Users之間的相似值。

 

 

 

 

 Exercise.3-5 & 3-6

3-5

這題是改程式碼的部份,我們加入了一個可以記錄每一個群組中各物件和中心點的距離,且這個紀錄各項值會在每一次迴圈中作更改,直到最後一次迴圈後則是最終距離了,不再改變,然後我們把所有值相加成total一個值,再執行出來就是所求的-各item和他們分別的中心點之總值。

3-6

由實例中我們可以看到,當k越大時,其總值越小,這是由於k越多越密集,和各items的距離當然會縮短,想像一下當整個圖面都放滿k時,連距離都沒有,總值是零。

a.jpg:以k=1和5為例

b.jpg:以k=10和20為例

頁面