shaolin 的部落格

Lab T2 : Exercise.4-6

組別:第二組  

組員:許復凱 劉凱銘 許聆容

先說這題在做什麼:題目說,現在我們的code可以依照inbound links中的text做rank了。
可是有一種狀況是這樣的,就是我們有時候用關鍵字去搜尋,但是最符合的網站可能沒有你的關鍵字內容
這時候就會發生搜尋不到的情形,題目提到搜尋圖片就是典型的例子。
課本希望我們改善他的search code解決這個問題。

早在前幾次課堂中報告了這題,當時的作法是利用資料庫去另建table做處理,想得很複雜
之所以會想要從資料庫著手,最主要原因是當時沒有時間跑一次crawler把data建起來

現在重新著手這題,卻意外發現這題只要加個關鍵一行code就可以完成
道理很簡單,我在記錄這頁有什麼關鍵字的時候,偷偷把這些關鍵字也link給下一個page
找到這個function : addlinkref(self,urlFrom,urlTo,linkText)
最後 + self.con.execute("insert into linkwords(linkid,wordid) values (%d,%d)" % (toid,wordid))
OK!
(單純但是這樣做像是wordlocation那個資料表就會不完善了,不過是小問題~重點是可以搜到)

我在課堂報告也提出了一個機制,道理跟我現在弄得很像
不過我每個關鍵字都給他加上了權重,利用上方程式碼加上去的關鍵字權重都給0.3,一般關鍵字就是原來的1
這樣做不會影響到原本的演算法,在計算上只要在最後面加上取floor,也就是最後計算1.2則以1算,2.1以2算
物理上的意義就是,一個page接受的外部相同關鍵字大於4個才可以跟出現在那個page的關鍵字權重相當(4*0.3=1.2)
當然數值只是一個大概,沒有實際測量過,方法我倒覺得挺不錯
可是當我發現這個方法要加在程式裡面就好麻煩唷>"<

當DATA來源是BBS

深網群聚智慧,在課本上多半提到的是web上面的再應用,call API,抓資料,背後可能有一些分群加值的動作,模式大概就是如此。在網路上,能用的DATA很多,今天我想分享一些不一樣DATA的作法,在台灣,有一塊很龐大的資源卻很少有效率的被利用,『BBS』。這一塊著實有很多人嘗試著去用他,很久以前政大那邊跑出了一款『柚子』,是一個針對 BBS 的搜尋引擎,如果今天我們想對PTT等資源當作DATA,這裡有一些程式可以幫助大家抓PTT的資源。

本來我想要自己上傳檔案的,算了,直接丟REF:http://briian.com/?p=2727

利用上面程式抓回來的東西可以先做parse一次處理成想要的格式,然後用課本上的範例去跑,真的可以做出一些有趣的東西。
要寫一個crawler感覺不會很困難,可是要做又有很多小細節要處理很煩,這款是我看過公開程式中算滿方便的一款,我偷偷用他做了很多事情。

Mashup 不可不提的新花樣

在web2.0早期,通常我們提到mashup都是server端在做處理,
昨天上課提到的Greasemonkey,卻是在client端在做動作,
我想大家在玩遍網站mashup的同時,一定會很想要真正的客製化!
那麼,瀏覽器外掛就是最直接的解決方法~

Greasemonkey是很有名的例子,改變進來的javascript達到你想要的功能!
老師上課有問大家有沒有使用過,好險我沒有說我都拿這個來抓正妹圖XD
關於Greasemonkey,賤狗同學也PO了一篇短篇,我就懶得PO連結了,科科
(我都被實驗室學弟影響了啦!好宅唷!)

時代在進步,紅色已經不流行了啦!(<--海角七號梗)
我來介紹今年八月二十六日熱呼呼剛出來的東西!
我覺得大家基本上一定要知道,這款由Mozilla Lab出的『Ubiquity
詳細內容點連結看就知道了,還有影片看不用腦!

這才是mashup嘛~老師應該要趕快加到教材裡面,太威了!
今年台灣 Yahoo! HACK DAY 第一名的作品就是借用這個來發揮~
我們來看看第一名得獎者的部落格
其實裡面提到很重要一點我非常同意~


不過說到地圖, 其實在 6 月的 IDEAS Show 也是有很多公司提出地圖相關的產品,
不知道是不是大家都覺得現在要獲得地理資訊還是太困難嗎? 還是為什麼..
我是覺得好像大部分的服務都有提供者了, 可是看到學生們做出來的東西還是清一色跟地圖有關係,
不知道是不是我與年輕族群背離了, 還是單純只是大家希望能夠很快的有 UI 可以呈現..

看久了地圖,就真的不喜歡地圖了...orz

新生一年後...

2007.10.04 11:00AM  
距離現在整整一年,永遠忘不了一年前的那一幕:
梅老師在計概課中介紹助教,我和賤狗在大家驚訝中上台的情景~
是那麼樣的突然!之後,同學就變成了學長甚至助教,連我都有點不習慣

如今,你們也辦完了宿營,帶了新的學弟,想要騙你們也不容易了XD
(我開玩笑的啦!一直一直都沒有想要欺騙的意思,甚至很想這樣下去!)
從以前到現在,你們的熱情深深感動著我,是個很有特色的一班呢!
一定一定要珍惜,尤其是在颱風中跟你一起辦活動的伙伴,
這次宿營本來我也是會去支援的一員,結果要幹活沒有辦法下去
像是要彌補些什麼的事後偷偷看了很多活動影片和照片,非常之熱血阿!

關於偽裝新生混到你們班,我曾在BBS上面寫過非常多的心得,
不外乎是一些會讓我看到想掉淚抓青春尾巴的筆跡
附檔是一篇我曾經交給老師的偽新生報告,就報告而言寫得非常不好 :(
但是重點是,做每一件事情之前,都要做到思前顧後,
其實我一直很怕當個新生帶給你們日後什麼陰影,或是到一個新環境就疑神疑鬼。
最初身為你們班導的梅老師之所以會讓我們這樣做,
也是他要求要做到附教育意義、不危害班級運作的前提下。

熱血最終還是會回到現實,到現在最大的收穫,
就是認識鄉長攤啦!系排攤啦!還有浩呆壽司這兩個同組熱血好伙伴!
沒有到全班人都很熟,相處的時間也才短短兩個禮拜,
但我還是,由衷的感謝以及慶幸著,能認識你們。

8/1 報告內容

題目是 An Autonomous System Traceback to Counter Large-Scale Anonymous Attack in Internet
作者為 Aldo Oktavianus Tamaela (國立台灣科技大學資訊工程系)
指導教授為 洪西進 博士
這篇是七月初老師去台科大審口試的論文之一,老師希望我們看看其實驗方式,所以我選擇這一篇當作本週的分享論文。

這篇論文最主要用在於找到 DDos 中攻擊者的"確切"來源,屬於IP traceback 的領域。
作者提出了一個機制叫做 Distance Clustered Autonomous System Traceback (DCAST),以 Autonomous System 作為單位追蹤。
在IP trackback領域中有各種不同的作法如 Hash-based、Link Testing、Logging、Marking,作者是延伸marking的作法(嚴格來說是 Probabilistic Packet Marking),此作法會在封包 header 中加入 node information、link information 以及 distance informatino,作者提出不同的方案在 distance information 部分,目的是要重建出完整的路徑回去(其他類似的作法不能做到完整的還原),藉由這樣一個路徑找到最原始攻擊來源。

頁面