geminihome 的部落格

Lab T5 : Exercise.9-5

組別:第二組  

組員:許復凱 劉凱銘 許聆容

 這一章是利用比對交友的一些資料,來判定兩個人是否適合。所包含的資料欄位有兩人的一些基本資料,包含了地址,課本上的地址是利用Yahoo API去抓到經緯度的數值,再把全部的欄位數值轉成數值型態,再去做比對,把資料做scale到0和1之間再去計算。再利用SVM的演算法去做分類,課本上的SVM模組要安裝到Python25很麻煩,因為他是用svmc.pyd去代替dll檔,我把這個檔案丟到每一個可能存在的資料夾底下,最後才裝上去。

Kernel_type=LINEAR

Kernel_type=POLY

在Matchmaker Dataset分析當中,但是我卡在剖析XML的時候都會出現錯誤訊息

否則下面的指令應該可以正確的將對應的Kernel_type=POLY的最後結果跟Kernel_type=LINEAR兩個做對比

 若是上面XML有剖析過的話,下面的指令應該為

answer,input=[r.match for r in scaledset],[r.data for r in scaledset]

param=svm_parameter(kernel_type=POLY)

prob=svm_problem(answers,inputs)

m=svm_model(prob,param)

呈現出最後的結果可以進行後面預測值的精確度

Lab T3 : Exercise.7-3

 

組別:第二組  

組員:許復凱 劉凱銘 許聆容
在建立決策樹的時候最擔心的就是有miss data會影響到整個結果,最後所預測出來的值會變有問題,若欄位值屬於數值性的,則在分類資料會較快速,但是欄位值屬於連續數值(離散值),在決定樹的分支點必須考量到比較多的因素,一般最常做的是利用entropy去做分割點的計算,那是因為數值性的資料,離散值較常利用的是Gini的計算方式。

課本上利用探勘使用者對於網頁瀏覽的次數來預測使用者會成為網頁的哪一種消費者(None,Premium,Basic),大部分的欄位都是屬於兩三種類別,只有在Pages viewed是屬於離散值

同樣得資料上面是用weka以節點為Pages viewed當作root以J48所建立的樹,其他節點是以location作為分類終端節點

整個結果

Correctly Classified Instances          12               75      %
Incorrectly Classified Instances         4               25      %
Kappa statistic                             0.6484
Mean absolute error                      0.1705
Root mean squared error                  0.292
Relative absolute error                 47.0443 %
Root relative squared error             68.8266 %
Total Number of Instances               16    

同樣得資料上面是用weka以節點為Pages viewed當作root以J48所建立的樹,其他節點是以location作為分類終端節點 

Correctly Classified Instances          11               68.75   %
Incorrectly Classified Instances         5               31.25   %
Kappa statistic                              0.596
Mean absolute error                      0.1536
Root mean squared error                  0.2771
Relative absolute error                 48.8636 %
Root relative squared error             70.0543 %
Total Number of Instances               16    

所以可以知道若是先以root為Pages viewed所得到的精確度會較高

 這裡的root就是所謂的離散型資料,這裡的結果是以12作為分割節點的次數

課本上是要以commendline的方式,每一個","表示對應到不同欄位的值,在根據所建立的樹去找最後的結果

對於某些欄位會出現miss data,所以整的演算法同樣會去利用"None"去計算最後的結果

期末報告

目前搜索引擎考量到只能以很短的單字去做Query(inverted list,每個單字為單獨建),若要以圖片作搜尋引擎的檢索,等於是將一個document丟到search engine去做query,並且在整個機器做計算,傳統的搜索引擎大部分花費的時間在crawl 全部pagesuser,但是最終給user只會有百分之一,其他都會浪費掉,若從原有的搜索引擎結構去做Multimedia Search必須去做改良,利用Search是可以最快直接得到用戶的intension,這就牽扯到long query的問題,必須處理大量的資料來從大量的圖片當中找到所要的圖片,傳統的Page Rank演算法,就是會利用去評估每個pageweight去給user較重要相關的page,但是他只能處理short query,一個images有一千個local feature,要將大量的資料去做降維(壓縮完再index)找到重要的data,很容易會丟掉一些重要的資料。

一般的inverted list

上圖inverted list (出自LARGE SCALE MULTI-TYPE INVERTED LIST INDEXING, Joerg Meyer)

LSH Locality Sensitive Hashing(此段出自於於邱一航等人,以圖像內容為基礎的重製圖像偵測與追蹤系統 使用概似最近搜尋法)

LSH主要的想法為空間中的每一個點經過雜湊函數的計算,可以讓每一個點與較相近的點碰撞的機率提高,反之若兩點的距離很遠則碰撞的機率則會下降。所以在查詢時,可以藉著雜湊函數來判斷鄰近的點,並且從雜湊桶裡得到所需相近點的資料。LSH在動態修改方面,如插入,刪除和修改點等功能,相當容易使用,時間複雜度也不高。LSH文獻中主要探討都使用歐氏空間來計算兩點間的距離,但是也可依據使用不同情況下,使用不同的距離計算公式,來定義不同LSH的雜湊函數,判斷點與點之間的相近程度。 LSH是由IndykMotwani所提出,其主要目的在於解決在多維空間中搜尋某ㄧ點的臨近點之問題。LSH在多維度的空間中,搜尋最近相鄰點時,其時間複雜度,會小於線性搜尋法的複雜度。

Topic model (LDA)

visual space 找到subspace,每一個subspace都是一個topic model,把所有document重新project到那裏,然後用hashing的方法建index,因為是做壓縮很多東西會移失,

上圖o 跟+是兩個不同的class,用PCA 求出降維後的basis,會使所有data 投影

到那basis 產生的error (Euclidean distance)最小。另一方面,Fisher Linear

Discriminate (LDA) 所產生的basis 就不一樣了,你可以看得出來o 跟+被投影

LDA basis 上時,有明顯被區分成兩群的情況,我們可以在投影過後的space

中,決定出一個點把兩群資料分開!而PCA 投影過後的data 沒有辦法決定一個

點把兩群資料分開。

Long document retrieval

所以將文件分為三個部分:1. document specific word (每個document是唯一的與標題相關)2.topic specific word(search keyword相關的) 3.background/stop word(多餘的內容)

驗證subspace

Basic ideal: Document Decomposition

1.      藉由PCASVD,一個文件p可以代表為

p=m+Xw

這裡的pm都是兩個W維度的特徵向量,X是一個W藉由K矩陣所得到的,wp重新建置的系數

2.      兩個文件的內積(為了要移除mean)

 

 

p=m+Xw+

Decomposition model

 

Ranking Engine

 

Cloud computing with search

大部分傳統的搜尋沒有辦法將user所搜尋的資料進行儲存,每一次的搜尋都必須重新去計算,並且是以pipe line的方式進行

 

1.      每一次會將網頁進行crawl,將資料進行除了後取出所要的data,再將data去建index,不斷的重複,沒有辦法將每一次所crawl的資料進行儲存。

2.      並且是緊偶合的架構,只要部分結構改變全部其他也必須跟著去改變。

Search engine分為三個系統

A.          Offline experience(系統會經由內部的開發人員去做建置和開發)

B.          Online experience(將系統開放出來進行測試,得到結果進行改良)

C.          Production(以產品的方式推出,得到結果的回饋)

Layered Infrastructure for search

 

1.      變的有記憶力

2.      技術轉移可以藉由data transfer,讓整個效能改善

 

Web-scale Multimedia analysis for search

把所有相關的數據算法變成類別庫,把meta data 存起來後,然後互相share和交換,定時將結果Knowledge傳到pipe line理,讓效能更重要

Reference

[1]. LARGE SCALE MULTI-TYPE INVERTED LIST INDEXING, Joerg Meyer, March 2005

[2]. 以圖像內容為基礎的重製圖像偵測與追蹤系統 使用概似最近搜尋法 ,邱一航 ,2006,第五屆數位典藏

[3]. Large-scale Multimedia Analysis and Similarity Search, Wei-Ying Ma(Microsoft research) ,2008,Emerging Technologies in Digital Media

Traditional search engine vs. Micrsoft new search engine

微軟新開發的搜尋是技術由馬維英(Microsoft research)所領導的團隊開發的,下面轉述一篇商業週刊的報導

 

他的「天才」雜牌軍 讓比爾.蓋茲驚豔

本篇文章摘自:商業周刊第 934 期

作者:林宏達

 
4年前,在美國,他只是個急著為生涯找方向的研究人員,4年後,他卻成為比爾.蓋茲不敢輕忽的科技人才,他是誰?如何成功?

在微軟,總裁比爾.蓋茲的時間,被當成寶貴的資產精密計算,蓋茲一年只有六個小時,聽取所屬研發機構中,真正重要研發成果簡報。但有一個人,過去三年來,蓋茲每年都要和他見一次面,聽他報告十到二十分鐘。

這個人是三十七歲、來自台灣的馬維英,他是微軟亞洲研究院資深研究員。今年五月,在被稱為「Bill G Review(比爾審查)」的時間裡,比爾.蓋茲帶著兩個技術助理,聽馬維英簡報他的團隊去年的主要突破,比爾.蓋茲不斷出一層深過一層的問題,二十分鐘後,蓋茲從椅子裡跳起來,握住馬維英的手,「It's super super exciting !(這真是太令人興奮了!)」

馬維英在北京帶領的搜尋研發團隊,是微軟所有研究院中,人數最多、也是最重要的,他的團隊有五十幾人,比別的團隊多一倍。因為,去年馬維英團隊獲得一個很重要的技術突破──讓電腦會「分類」。這些突破,讓微軟未來能建立打敗Google的搜尋引擎。以後上網搜尋時,會覺得電腦變聰明了。例如,在網路上打出「java」,電腦可以將「爪哇咖啡」、「爪哇島」的旅遊資訊,或是「java」程式語言等資料分開,讓搜尋者不再大海撈針。

獨步全球學術界 研究論文成就非凡

從純學術的角度來看,馬維英也算是成就非凡。今年,他的團隊有九篇論文,在全球資料搜尋領域的最重要會議──「美國電腦學會資訊搜尋會議」的匿名論文審查裡(ACM SIGIR),被選為最值得討論的論文,比美國微軟總部研究院獲選的兩篇高得多,而麻省理工學院,最多也只獲選兩篇。

「從學術看,他們已經是現在全球搜尋研究最好的隊伍了!」台灣搜尋技術權威,中研院資訊所副所長簡立峰分析。特別的是,馬維英對搜尋領域本來完全陌生,他卻在一年內,從零開始,交出令學術界、業界都驚豔的成績單。

馬維英本來專攻冷門的「數位博物館」技術,他在惠普擔任四年研究員之後,二○○一年,看好中國大陸未來資訊研發潛力,離開矽谷到中國,投效北京微軟亞洲研究院。

馬維英的工作,是帶領一個組的研究員和學生做研究,他必須在兩年內,證明自己所帶的團隊,能有突破性的發展,否則就得走人。當時微軟亞洲研究院院長張亞勤訂的標準,馬維英必須讓團隊發表的論文,占全世界最頂尖、最競爭的資訊技術學術會議所接受論文的百分之五,才算是一支世界級的研發團隊。

聰明人聚在一起的效果 不是加法而是乘法

不過,一開始並不順利。全院十二個研究小組裡,馬維英分到的是「其他組」。「其他組」的意思是,其他各研究小組多出來的一、兩個人,無法獨立成組研究,又不知道如何分類的人,全到了這一組。

在一般的電腦軟體研究小組裡,為求專精,同一組裡,多半是由同領域裡的專家組成,用更細密的分工,拆解越來越複雜的研究問題。沒有人像馬維英的這個研究小組,把做電腦繪圖、資料採礦(Data Mining)、人工智慧、文本分析、多媒體、視覺運算等十個不同領域的人,全丟在一起。

什麼領域的人都有,就難以專精,看不出馬維英團隊的強項究竟是什麼?也沒人知道這個組,究竟打算做出什麼東西來。馬維英承認,壓力大到讓他睡不安枕,甚至因為水土不服生病好幾個月。

辛苦摸索了一年還看不出頭緒,馬維英才想到,既然自己的特色是多元,與其跟別人比分工專精,為什麼不換過來,在一個新領域,跟別人比廣度,看看這群專精背景完全不同的人,能激盪出什麼新火花?因此,他決定就用這群人,進攻網路搜尋研究。他的做法,是定期讓所有不同背景的高手,聚在一起討論,每個人上台報告自己這段時間最關心的問題、進度和最覺得難以突破的困難,每次報告完畢,所有人就用自己的經驗,丟出建議和看法。

「聰明人聚在一起,產生的效果,不是加法效果,而是乘法效果,不同領域的聰明人越多,越能產生大的突破。」馬維英主動讓背景完全不同的人一起合作,蹦出完全不一樣的想法。不斷重複這樣跨領域激盪,許多原創性的想法開始成形。

例如,原本做網頁搜尋,都是把每個網頁,當成一個文字檔處理,所以,打「java」搜尋爪哇咖啡,可能會找到昇陽寫給工程師看的java程式語言說明,想讓電腦從一堆亂七八糟的程式碼中,分析哪一個網頁比較重要,是一直難以突破的搜尋技術。

問題丟出來後,聽在學電腦繪圖的人耳中,卻提出一個沒人想過的答案,「把網頁當圖形切割」。這個方法,主要是讓電腦仿照人的注意力模式,把出現在人們視覺焦點的資訊,列為高度相關,優先呈現。

過去是只以文字思考,改成視覺焦點新思維切割網頁思考後,把文字檔切成一段段的「網塊」,按照文字出現位置的重要性不同分類,就像一個報紙版面,把標題、內文切割出來,就不會把所有文字都當成同樣重要,搜尋命中率大幅提高。

討論過程中,馬維英會做不同領域間的橋樑,免得所學背景不同,沒有交集,同時,他也幫大家重新定義,加入新領域後,新的研究問題該定在哪裡。

「傳統做搜尋的人,學的都差不多,我們報告一出來,他們很震撼!」馬維英分析,同樣的問題,也許在A學術領域裡長期無法解決的問題,借用B學術領域裡發展出的概念,就有完全不同的解答。另一個因為跨領域而產生的新想法,則是網頁排序。馬維英把原本做人臉辨識的人,轉向做網頁排序。做人臉辨識,必須有很強的人工智慧基礎,才能讓電腦學習,即使在不同的燈光,或是顏色影響下,仍能辨認人臉的形貌、特徵。多元領域交會 可以爆發出驚人的創新

把人工智慧運用在網頁排序上,馬維英也可以訓練電腦,將網頁自動歸類。例如,打入「馬維英」三個字,過去的做法,只能排出和一般人認知毫無關係的搜尋結果。新的做法,卻像是有人先代為過濾不重要的資訊,而且把相關的資訊,放在同一個檔案夾裡。

替天才找來其他更能給他新刺激的天才,讓馬維英從一個惠普的研究員,成為微軟頂尖研發團隊的領導者。「我其實只是幫他們把問題問清楚,建立一個互相交流的平台,其他的事情,就自然發生了。」

馬維英的做法,其實就是美國財經作家法蘭斯.約翰森(Frans Johansson)的「創意管理」理論。在法蘭斯的「梅迪奇效應」(The Medici Effect)一書中提到,不同領域的交會,可以爆發出驚人的創新,因為多元領域讓人比較可能從多重觀點看待事情。不同的觀念、想法,往往可以激盪出新的創意。

這群「雜牌軍」的整合力量正不斷擴大。馬維英透露,未來四年,整個團隊還會再成長四倍。而在此一過程中,他也學到,只用壓力和短期目標強迫天才達成目標,通常只會得到急就章的應付答案,很難產生真正突破性的發展。要管理天才,最重要的還是:「激勵他,把他放在對的位置,他們就會自己找到解答。」

四個台灣菁英,撐起微軟亞洲半邊天

微軟亞洲研究院裡,最高階的七個資深研究員裡,就有四個來自台灣。

這四個人,除了馬維英,還有創造深藍電腦,打敗棋王的許峰雄、幫貝爾實驗室,創造出現在全球通用的手機通訊標準的宋平、以及幫微軟做出語音辨識系統的亞洲研究院副院長洪小文。他們都是在美國早已成名,卻選擇去大陸卡位的台灣菁英。

為什麼不留在美國做研究呢?洪小文認為,現在大陸一年畢業五十萬個工程人才,美國一年卻只多增加六萬個工程師,對人才最敏感的研發工作,往大陸移動,是時勢所趨。

此外,美國大型科技公司研發規模縮編,人力資源也不如大陸充沛,逼得這些想發揮更大影響力的大師級研究人員,只得往北京跑。而包括德儀、Intel等外商,都在大陸設立研究機構,機會越來越多,而且在網路時代,在哪裡做研究,已經沒有太大差別。

「我只想待在大型,有各種不同人才刺激的實驗室!」許峰雄笑著表示,高科技產業聚集在亞洲,已是不能改變的趨勢,「唯一不能適應的,是北京灰濛濛的天氣。」

[轉貼]Top 10 Last.fm Mashups

Last.fm 是一個非常有名的社交推薦音樂社群的網站跟imeem一樣是一個公開web serivce api的網站

Last.fm API Background

First some context. If you're a last.fm user, you may not be aware that powering it is a database system known as Audioscrobbler - described on its homepage as "a massive database that tracks listening habits and calculates relationships and recommendations based on the music people listen to." Audioscrobbler started out as a plug-in that tracked a user's listening patterns on audio players such as iTunes, Winamp, Windows Media Player, etc. It was eventually integrated into last.fm and is now an important part of its recommendations system - not to mention the key to its API, which allows third party services to use the data.

At a high level, this is what Tom Coates was refering to last week at Webstock as the Web of data. The Audioscrobbler webservices page goes into more detail about what data is made available - a wide range of information, from artist data (tags, most popular albums, etc) to track data to group data and more. But for this post let's focus on 10 of the best mashups that use this data. In no particular order...

1. MusicPortl

A very slick Ajax powered search engine that delivers videos, photos, blog entries, albums and other info about a particular music artist. Last.fm data is featured, along with data from Amazon, Flickr, Ontok, MusicBrainz, YouTube and Wikipedia. What I especially like is that it features blog posts that are related to the artist, via Technorati.

2. Tokyo Stage

TokyoStage mashs up music charts, Youtube, LastFM, and LyricWiki. Its charts are updated daily. Here is an example, featuring the current number 1 in the US, 'Low' by Flo Rida Featuring T-Pain. The below screenshot shows a number of different videos that use the 'Low' music, many of them not by the artist.

3. The Pirate Bay music section

As TorrentFreak reported in December, Bit Torrent tracker site The Pirate Bay launched a new music section where artists are categorized via tagging data from last.fm. The music section is still a beta release, but you can see from the screenshot how it makes music discovery easier.

4. musicmesh

Lets you explore music derived from audioscrobbler by a graph of album covers, which are sourced from Amazon. You can watch videos from YouTube and see reviews at Amazon, Wikipedia etc. Nice search and tag exploration options too.

5. TuneGlue

A cool visualization of music artists, using Last.fm data mashed up with with Amazon data for things like album details. You can also control the "friction" and "elasticity" settings, to change up the results.

6. Last.fm normalised rankings

Awkward name, but this neat little service gives you your own Billboard-like chart of what you listen to the most. It ranks artists and albums by estimating how long you have spent listening to them. All you need to do is input your last.fm username. For what it's worth, here is my top 10 (which pretty accurately reflects my subjective favorites!):

7. Music Artist Cloud

This service generates a tag cloud of artists similar to the one you've input, based on Audioscrobbler data. I generally don't find such tag clouds to be overly useful, because music is very subjective - e.g. Bryan Adams isn't very similar to REM in my view. Still, there are some useful aggregations of YouTube video and Amazon links in this service.

8. One Hit Wonders chart

If you've ever wondered where Patrick Swayze's hit song 'She's like the wind' ranks among last.fm's user base, wonder no more... It's right up there at number 4! One hit wonders come from a suggestion box on the site's homepage. This is a fairly useless list, but it is a fun way to showcase how last.fm data can be mashed up.

9. Upcomingscrobbler

This is a more useful last.fm mashup - it's a combo of Last.fm and Yahoo-owned events website Upcoming.org. It tells you where bands are playing live in your local area. Bandsintown is a similar service.

10. PandoraFM

A frustrating app for many of us who can't access Pandora outside the US. But provided you are living in the USA, each song you listen to in Pandora is submitted to your profile on Last.fm. It claims to be "the best of both worlds" -- but what a great shame most of the world can't use it.

Term Project Proposal

系級:資工碩二   學號:496516205   姓名:許聆容

主題:

社交網路式行動裝置音樂推薦系統

(Social Network-Music-Recommendation On Embedded System)

利用社交群組的方式,在流行音樂社群當中記錄使用者對於音樂的喜好,利用Web 2.0的技術,

可以簡易的在個人化社群推薦當中取得使用者對於音樂的喜好,包括聆聽音樂的習慣,

使用者可以利用網站產生多張的Playlist,利用線上播放的方式,紀錄聆聽音樂的紀錄。

現今行動化裝置越來越流行,時下年輕人會手持ipod等行動裝置,

讓自身隨時處於音樂當中。

考量到行動裝置限有的記憶體容量,無法在裝置上存放大量的多媒體資訊,

可以利用即時的網路串流的方式,取得從網站上下載得音樂清單,進而聆聽。

Ø   Personality

 

使用者可以經由在網站上註冊個人資料,經由伺服器端紀錄個人所產生的playlist

使用者可以利用線上日誌(blog)的方式,紀錄心情日誌,

包括產生的Playlist可以標示情緒tagPlaylist分類只會紀錄區分為Thayer的情緒模組中的

固定四個類別,在經由網路上search過的歌手、歌曲、專輯,

使用者可以將喜歡的音樂加入Playlist當中,使用者可以根據加入歌曲的Playlist

將每一張的Playlist都會對應到情緒模組中的四個類別。

在個人日誌當中所記錄的心情日誌,使用者可以依據心情加入表情符號,

並且將日誌對應到情緒Tag,經由情緒Tag會找到使用者預先創立的Playlist所歸類的情緒

類別,發表過後的日誌會自動在Playlist的欄位當中產生歌曲清單。

Ø   Social Network Recommendation

 

整個網站會依據使用者所創立的四個情緒類別的Playlist,去做相似性的Playlist推薦,

使用者所產生的Playlist所對應到的情緒類別,同樣的會在網站群組會員當中,

將相似的情緒類別Playlist推薦給使用者。

整個網站也會運用到RSS feed的技術,會以XML的方式記錄最熱門情緒類別中的Playlist

Ø   Device System

 

使用者可以經由行動裝置上網的方式,從網站伺服器取得個人化的資料,

包括已經創立的Playlist,在行動裝置上的application

client端會讓使用者以類似心理測驗小遊戲的方式,

讓使用者自行去點選,測試的結果會顯示出使用者目前的情緒狀態(對應到情緒類別)

在連接到網站伺服器當中,

將使用者已經制定的情緒類別Playlist,以即時串流的方式載入行動裝置當中,

使用者可以即時的聆聽Playlist

Lab I1 隨意搜尋 心得報告

系級: 資工碩二      學號:496516205        姓名:許聆容  

 第四章

 透過科技的日新月異,許多運用在生活上成為人類生活中不可或缺的一部分,不管是網際網路

的興盛,或是地理資訊系統的技術,運用於人類生活帶來足夠的便利性,但是這種技術所帶來

的層面對應到缺點及為人性隱私面,若是我小時候在任何時候都需要受到父母親的監控,我一

定會感覺到隱私被剝奪,縱使父母親對孩童基於保護的立場會以某些科技工具做為監控,但是

對於成長中的孩童而言,會希望在面對父母親之外的場合,保有自己的隱私去做任何事情。此

章節所提到的音樂瓶,裡用RFID的技術,讓瓶子中裝不同的聲音去做演奏。這個技術我在參加今

年的WOCMAT 2008一位工研院的許馨仁小姐,就有將這個技術的影片呈現出來,現場也有提供

類似的工具,藉由不同的立方體,將立方體六面都貼上不同的圖案標籤,利用Sensor的鏡頭,電

腦會變是出不同的圖案,在電腦螢幕上會產生不同的動畫和聲音,聲音也會對應產生相關的音

波圖樣。

 

        有關RFID運用在很多層面的部分,上學期Semilar就有很多專業的人來演講過,但是受限於某

些特性RFID雖然有很大的發展可能性,卻也可能造成錯誤的結果。在現今的社會卻也為部分的人

帶來很多的未來,像是家居老人照顧,盲人可以利用某些科技規劃每天的路線,但是若是未來

要植入晶片到人體,這些技術所運用到的部分,科技產物都會有許多對人體傷害的物質,我不

能想像這些東西若是植入人體所帶來的傷害會有多大。在GPS定位技術逐漸發展之下,許多掌上

型的裝置都會有加上這個部分的功能,讓人在無時無刻可以知道自己所在的經緯度,並且透過

這種技術得到地理位置相關資訊,包括旅遊、店家這種便利性帶動整個商機的方展。但是若是

運用在追蹤人的定位上面,運用得好可以改善犯罪,反之則可能會侵犯隱私的相關議題。

 

Lab I1 我們比我聰明 心得報告

系級: 資工碩二      學號:496516205        姓名:許聆容

第二章

在現今開放式的網際網路上,使用者可以輕易的利用網路的交換性,來即時的發表自己的意

見,也可以經由廣大的社交網路平台,換取人們之間的經驗和知識。在整個企業界的體系當

中,不管是商業流通的互動,雇主永遠在意的是消費者的意見,消費者的意見永遠是最大的。

尤其是在廣大的軟體界,資訊業的淘汰更新率不斷的再成長,許多同樣性質的系統往往會互相

承受比較,社群提供使用者一個可以輕易發表自己的平台空間,章節內容也提到,很多業界更

是運用成功的行銷策略,將問題丟回社群,讓群眾自己去找尋答案,並且運用社群的力量,廣

大的使用者成為開發產品的主導人,現今許多軟體系統更是成為這方面的主流,像是open

source的軟體,更是將這種運用廣大參與者的回饋,成功的取得更強大的力量,系統主流反觀

微軟將整個系統已封閉式的架構將source code包裝起來,linux系統的open source,使用者將

參予的開發過程,提供更有力的改進,直到現今linux在資安上比微軟漏洞更有進一步的防護。

Second life運用3D的技術加上open source的影響,參與者也可以在整個虛擬世界當中,取得

更滿足自身需求的application,反觀現實世界的距離,這種運用網際網路所帶來的便利性,取

代了在現實世界中所固有的限制。整個目標充分的展現以群眾為力量的延伸,對共同目標所呈

現出的強大向心力,取代了個人世界中,所封閉的狹窄空間。但是要如何在這個廣大的世界當

中,運用消費者群眾完成企業界所想要的產品開發,這又是另一項消費行銷概念的呈現。

Lab I2 Report & Demo

學號:496516205 姓名︰許聆容

ps. = =為什麼我打好的文章會出現伺服器內部錯誤的訊息,就不見了,to:站長(少林)你要不要修一下bug,每一次打好的文章都要自己存

成草稿很麻煩耶,而且為什麼我上傳圖片檔,只能上傳一張,上傳第二張會出現網頁錯誤訊息

1. generatefeedvector.py

   這一隻程式會將feedlist當中的feed以feedparser.py這個模組進行剖析字頻的動作,最後結果存在blogdata.txt這個檔案當中

我有試過把他剖析中文字,以中文網站的feed但是會出現剖析字碼錯誤的訊息..有人知道為什麼嗎?

 2. clusters.py

   這一支程式會將blog以cluster的方式進行分群,利用Python Imaging Library (PIL)這個模組把它劃成以階層式架構的方式,

    圖片blogclust.jpg和wordclust.jpg(wordcount)兩者的圖片檔我放在附檔