harlan 的部落格

Reference Management

Reference 需要靠平時累積和管理,除此之外,Reference的整理也是很重要的。

EndNote 是套很方便的管理工具,可是當我們最後在整理論文做引言時,常常會找Reference要放在那些段落會對不上來,此時就需要趕快把reference重新看看。

因此最好的方法應該是平常就要開始動手寫論文,每天寫一點,然後將引用放在最後面,這樣才不會像我到最後在排reference一樣很頭大。

雖然找是一定找的到,可是就不知道該放在那裡才比較洽當。

一點點感想。 

 

 

[20080523] Proceedings of the International Symposium on Webometrics and Web Miing

時間有點趕,因此準備有點久。

上週五 (5/23 Fri)去政大聽的一場研討會,我最有印象是第一場,題目是"An Introduction to Webometrics" Ronald Rousseau, President of the ISSI。

很有趣的是最後主持人問了一個問題,ISSI (international society for scientometrics and infometrics)是不是應該去掉一個S了?

 

明天大概會提到以下幾個觀念

  • Webometrics, Bibliometrics, Scientometrics, Cybermetrics, Informetrics
  • Commercial search engines bring some problems? Solution?
  • The Web imply social relations
  • Web structure: Bow-Tie & Corona
  • Bibliometric Law
  • Use Web to retrieve information in research evaluation.
  • Relations between each links on the Web and citation analysis
  • Link Creation: Vaughan-Shaw Classification

有些是博士論文, 看了很汗顏, 因此只看實驗部分. 大家有興趣可以先看看 Escher Image. 

session 2 的日本人比較吸引我 ....... 賤狗應該知道 : ) 

 

[Meeting]20080524

這次主要修改實驗參數,增加關鍵字到五個,總共有: Travel, Vacation, City, Skyscraper, Taipei101。 Two-Keyword 部分因為過於複雜因此先取消。

關鍵字和找到的Tag和資料庫本身有緊密的關係,有些關鍵字用次數得到的結果非常不好,不過有些用FCA下去分析會有些許差異。

投影片全部放上去超過 7 MB,目前還在刪除一些實驗相關部分。

 

 

cloud computing

最近這個名詞出現了, 事實上就是分散式系統的一種運算之一, 和先前的grid computing概念很接近 ...

 細部可能有些許不同, 不過似乎幾年之後這種類似的東西就會跳出來一次讓大家炒的沸騰騰, 感覺是在宣揚業界的強大運算能力一樣

 

實驗

最近一直在最實驗,應該是在跑數據,在修正參數觀察分析。實驗就是不停的作,然後觀察原因去思考要怎麼修改才比較好。

兩種不同類型的資料庫,要作合併在作分析。因此下的關鍵子很有關係,實驗的對照組也很有關係,實驗比較參數也很有關係,每個環節和每個參數都和實驗有絕對的關係。

目前我打算用原始資料去跑精準度部分,用原有提供的參數去做分析。雖然跑一次資料量會變的非常的龐大,但是目前打算這樣做做看。

另外就是會換個關鍵字,主要是要避免資料庫不同類型的因素造成的結果。因此two-keyword的部分先暫停。

 

FAT

路過也來貢獻一篇,雖然和Linux應該沒多大關係。相信有修過葉老師的檔案系統或是學過資工基礎課程都應該理解檔案系統是什麼。但是實際上自己也可以動手寫一個 format 程式,其實不困難。以下是一個fat32的範例,有機會可以嘗試改成 fat16 or fat12 之後再嘗試改寫成其他檔案格式。只是依照 spec 欄位填寫一些值就可以。

http://www.ridgecrop.demon.co.uk/fat32format.htm

個人最近在研究 cramfs,因為想改寫一個可以放在embedded system上的超小型fs。

[Meeting]20080426

這次報告會介紹實驗結果。

  1. 目前是依據 Title 和 Sub-Tag 的精準性去做對照組比較。
  2. 實驗來源目前有 del.icio.us , flicker 和 youtube。
  3. 實驗方法分 single keyowrd search 和 multi keyword search。
  4. 實驗關鍵字目前是用 "travel"。
  5. 實驗方法有三種, 分別是 native ( frequency ) , FCA 和 FFCA 三種。

 

del.icio.us 最好作,因為本身就會過濾很多垃圾的資料。 flicker 最困難,因為垃圾 tag 最多,間接變成我要花更多時間去處理,目前已經在思考是否要用了。 youtube 還有原本的 classification 可以當作比較,不過可以和 youtube 結合的代表性資料庫還在尋找中。

我還在尋找適當的 news db,有 tag 當作依據,資料量又大,而且又會幫忙處理一些垃圾資料的資料庫。 

另外或許可以增加其他關鍵字,這次會議會再和大家一起討論可以選用那些。

 

副檔我放不上去,因為投影片超過 2 MB,也不能用壓縮檔。因此還請好心人幫忙開到上傳限制。

 

謝謝 

 

頁面