Lab T1 : Exercise.3-1

組別: 第三組
組員: 岑志豪 任祥偉 李耀軒

Exercise.3-1
Using the del.icio.us API from Chapter 2, create a dataset of bookmarks suitable
for clustering. Run hierarchical and K-means clustering on it.

這個例題要我們將delicious上的bookmark抓下來,再利用HierarchicalK-Means這兩種方法做分類。

我們修改了課本上的generatefeedvector.py,利用它讀取delicious上的rss feed,並將抓下來的bookmark資訊做處理,使抓下來的資料適合於做分類。

餵入的rss feeds:

http://feeds.delicious.com/v2/rss/popular/travel

http://feeds.delicious.com/v2/rss/popular/hotel

http://feeds.delicious.com/v2/rss/popular/airfare

http://feeds.delicious.com/v2/rss/popular/design

http://feeds.delicious.com/v2/rss/popular/education

http://feeds.delicious.com/v2/rss/popular/web2.0

http://feeds.delicious.com/v2/rss/popular/linux

我們抓了7個在popular tag裡的rss feedsurl,將每個bookmark的所含的tag抓出來計算,用這些資料來分類。

 

而後我們實作了Hierarchical的分類法,並利用PIL(Python Imaging Library)產生圖形化的Hierarchical分類,分類結果如下: 

  

 

  

而使用 K-Means (k=5)分群出來的結果為: