前言
不管你是一個什么樣的社會角色,在數(shù)據(jù)橫行霸道的這個時代,面對充斥著屏幕的巨型體量的數(shù)據(jù)信息,你該怎么管理?無奈的面對等待挑選的信息,你該如何選擇?
如果說這些數(shù)據(jù)被定義好了正確的屬性,明確的內(nèi)容特征,這時候是不是就解決了我面對數(shù)據(jù)時的無奈和尷尬。
舉個栗子
畫風(fēng)突變一下
來來來,我們來聊聊各種文胸;
今天在公司做運營培訓(xùn),多次提到文胸這個生活必需品,我們就拿它來搞事情。
案例背景是這樣的:小張、楊先生、李先生同去內(nèi)衣店(為什么是同去?搞事情啊)
小張:萬年單身宅男,沒交過女朋友,誰知道他為什么要去內(nèi)衣店買文胸,進店后低著頭說要普通文胸,黑色的。
楊先生:跟女朋友如膠似漆(不是我),打算趁熱打鐵,送女朋友個禮物,要一套性感的情趣內(nèi)衣,升級一下男女之間的革命友誼,大小暫時還不知道,要聚攏的,最好是黑色或紅色的,有蕾絲,V型款式晚上回去不可描述...
李先生:老婆下班前打電話,內(nèi)衣壞了,你下班早,愛我就去幫我買個內(nèi)衣,大小你知道,顏色素一點,無痕的,后雙排搭扣。
小張、楊先生、李先生,他們到內(nèi)衣店會懵逼的,好多品種,好多顏色,布料不多,形式不少;怎么挑啊... ...
讓開讓開讓開,我來了(假裝我是賣內(nèi)衣的)
我們要做的就是怎么幫助迷失在文胸中的男性同胞們,提供一個快速定位的解決方案!
怎么做這個解決方案呢?
文胸那么多,我們對文胸規(guī)整分類、標屬性呀。
站在商家角度:
1、化分類
文胸、情趣內(nèi)衣、少女文胸、抹胸、塑身美體...
2、標屬性
有無鋼圈:無鋼圈、有鋼圈
胸圍尺碼:70A,70B,70C,70D... ...
模杯厚度:薄模杯、上薄下厚模杯、超薄杯... ...
適合胸型:小胸、大胸、外擴... ...
罩杯型:3/4罩杯、全罩杯、背心式... ...
功能:聚攏、無痕、調(diào)整、上托... ...
搭扣:后四排搭扣、后三排搭扣、后雙排搭扣... ...
使用季節(jié):春季、夏季、秋季、冬季、全季... ...
有無鋼托:無鋼托、有鋼托
款式:V型、U型、背心型... ...
... ...
站在數(shù)據(jù)角度
1、分類
分類是一個將思想或事物進行識別、差異化和理性化的過程,他是對事物集合的一個寬泛的描述整理。
就如同上面我們將各種文胸首先按應(yīng)用類型進行歸類一樣。
分類是抽象化,大綱級別。
2、標簽
對應(yīng)就是我們上面說的屬性,他是對分類的進一步細分,是對商品的更加細化的描述。
標簽是實例化,關(guān)鍵詞級別。
我們將所有文胸進行了分類化、標簽化,其實就是在數(shù)據(jù)概念里對資源的清洗、整理、特征提取。重新被明確特征后,我們想要找到目標資源還會手足無措么?
章節(jié)
一、Tag & Tagging
Tag:是對信息進行描述的一種元數(shù)據(jù);
元數(shù)據(jù)是所謂描述數(shù)據(jù)/信息的數(shù)據(jù);Tag是一種被普通用戶或?qū)<叶x的,能夠用來對資源進行描述的一種關(guān)鍵詞。Tag是一種用戶自創(chuàng)的元數(shù)據(jù),特點是無層次結(jié)構(gòu)、自定義。
Tagging:是用戶為資源進行賦予Tag的一種行為。
tag這種設(shè)計,是http://del.icio.us開發(fā)者Joshua Schachter最早采用的,Joshua也曾經(jīng)解釋過,為什么他要用tag。
摘錄如下:
據(jù)Joshua介紹,1998年他在做一個網(wǎng)站時,手頭有大量鏈接需要保存,最初這些鏈接是被保存在一個文件中。隨著保存的內(nèi)容越來越多,為了更快捷地找到某個鏈接,他開始在鏈接后面加上單詞的備忘,這就是后來的標簽(Tags)。
他說,“我希望借助電腦的幫助,把存儲和取回分成兩個獨立的行為,因此當你給你存儲的東西加上tags,你就可以更容易地取回它們。在這么做的時候,你取回其他人存儲的東西也會變得更簡單。tags促進并放大了這一點。”
Delicious,F(xiàn)likr等隊標簽的應(yīng)用促進了標簽的快速發(fā)展,現(xiàn)在已經(jīng)成為了我們常見的對內(nèi)容描述的功能。
圖書館學(xué)者們很快發(fā)現(xiàn),隨著在社會化網(wǎng)站中tag被大量采用,它成為傳統(tǒng)的本體論分類方式之外的一種新的分類方式,群體行為在某些情況下具有驚人的一致性,這種一致性產(chǎn)生了對事物的有意義的社會定義。這種新的分類方式,被稱為“大眾分類”(folksonomy)。
精確性、唯一性,我們都習(xí)慣于傳統(tǒng)信息組織的這些特性;這些特性常常會使用戶對tag的理解上造成誤區(qū),我們會將傳統(tǒng)信息組織的特性來要求大眾分類,這就有點像傳統(tǒng)數(shù)學(xué)家對解模糊數(shù)學(xué)的某種抵觸。
我們現(xiàn)在要從一片西瓜地里找出一個最大的西瓜,那是件很麻煩的事。必須把西瓜地里所有的西瓜都找出來,再比較一下,才知道哪個西瓜最大。
西瓜越多,工作量就越大。如果按通常說的,到西瓜地里去找一個較大的西瓜,這時精確的問題就轉(zhuǎn)化成模糊的問題,反而容易多了。由此可見,適當?shù)哪:苁箚栴}得到簡化。
二、Tagging不是一個萬金油,有利也有弊
關(guān)于標簽這個東西,有人說好,好在他極大地方便了用戶對數(shù)據(jù)的管理,使數(shù)據(jù)更加清晰,讓無序的,雜亂的數(shù)據(jù)能夠按指定的規(guī)則進行重整,極大提高了管理的效率和高效的數(shù)據(jù)挑選;
同樣有人說他不好,Tagging在分眾分類法時,無法保證標簽在數(shù)量和質(zhì)量上的控制,用戶在使用標簽時,質(zhì)量受環(huán)境、心情、理解等各種因素影響,有造成大量無意義的關(guān)鍵詞的危險,這些低效能的關(guān)鍵詞根本不能達到作為一個標簽的要求。
對于系統(tǒng)而言,標簽定義的范圍是否需要限制?Tag是否越多越好?尤其困難的就是我們根本無法提前預(yù)知被標簽描述的資源,將來會發(fā)展成什么樣。
另外,Tagging本身對與用戶來說就是一件具有學(xué)習(xí)成本的事情,用戶本身對信息的描述可能就很陌生。
我們能進行信息組織時,主要有兩種:
1、分眾分類法(folksonomy):指大眾自發(fā)利用Tag對信息進行描述、分類,構(gòu)成與信息架構(gòu)中。
2、傳統(tǒng)分類法(taxonomy):以專家意見或行業(yè)規(guī)則定義的,大眾共識的一種標記方法。
二者區(qū)別見下圖:
圖片來自網(wǎng)絡(luò)
Tagging的優(yōu)勢
結(jié)合vs圖的對比,可歸納出Tagging的以下好處:
1、使信息組織更經(jīng)濟、高效、靈活
我們描述的資源處在一個高速成長,持續(xù)復(fù)雜化演進的過程中,隨著信息越來越多,傳統(tǒng)分類法和分眾分類法的區(qū)別就會越來越明顯;
在高速成長的數(shù)據(jù)體量下,傳統(tǒng)分類法的劣勢愈發(fā)明顯:開發(fā)、維護的成本不斷增加;而基于標簽、運用普通用戶來維護的分類法則相反;
更明顯的是在當下的社會環(huán)境中,針對各個行業(yè),數(shù)據(jù)越來越體現(xiàn)個性化,因為個人產(chǎn)生的數(shù)據(jù)越來越多,系統(tǒng)的分類、描述能力和效率可說遠不如內(nèi)容創(chuàng)造者本身。
2、對信息的索引、描述更豐富
a.傳統(tǒng)分類法中因為控制詞表(thesaurus)的存在,限定了嚴謹?shù)囊?guī)則標準,Tag固然沒有傳統(tǒng)分類的嚴謹,但一個資源是可以持續(xù)被無窮多個用戶進行無窮多個標簽的描述,在標簽被重復(fù)描述到資源的過程中,大眾對于資源的認知總會趨于幾個大眾方向,人們對資源的理解在數(shù)量上爆炸后總會驚人地趨于一致,這時候針對標簽的搜索就有了不次與傳統(tǒng)分類的獲取。
在針對一些圖片、視頻、音頻進行描述標注時,傳統(tǒng)分類的成本極高、效率更低,這時候Tagging的價值就會越發(fā)明顯。
b.Tag是一個開放的資源描述,這種描述的關(guān)鍵詞一般是具備共享性質(zhì)的,其分布往往呈長尾狀收斂(Shirky, C. 2005)。
給個標簽及其使用頻率,既可以反映大眾對于資源認知上廣泛一致性的定義,又不至于讓小眾意見(minority opinion)完全被淹沒。
兩條deli.cio.us書簽的Tag頻率分布
圖片來自網(wǎng)絡(luò)
3、更人性化的信息檢索
標簽的應(yīng)用最終優(yōu)化的是搜索過程的高性能和結(jié)果的高匹配度,以及獲取更多資源的可能性;
當資源的種類和內(nèi)容不斷豐富(如Flikr的所有相片、Youtube的所有video),資源的接觸點更多了,通過接觸點用戶對資源的描述也越加豐富,最終用戶在海量的信息當中進行資源搜索時,也就能有更多的機會獲得與搜索預(yù)期匹配的內(nèi)容。利用大眾對資源的理解,和描述的不斷豐富,來讓搜索更加語義化、人性化、社會化。
小結(jié):
以上描述的都是標簽在#社會性#上的優(yōu)勢,標簽在標引信息時的一大特點在于#自我性#。
Golder et al(2006)提出Tag大致在描述信息的7方面:
1、它關(guān)于什么(主題、分類、屬性等)
2、它是什么(標題、類型等)
3、誰擁有它(作者、協(xié)作者)
4、修飾Tag的Tag
5、它的品質(zhì)(有趣、雷人等)
6、自我參考(我買過的、我的書等)
7、任務(wù)管理(待讀、找工作等)
標簽因其高度自定義的特性,使用戶在使用標簽時,能夠更加個性化地去描述資源,每個人對于資源的理解差異,需要這種個性化的支持來滿足用戶的理解差異。從最后3條我們就可以看出自我性的影子,
這種自我性帶來的好處是
1、輔助個人信息管理
同樣因為標簽的自定義特性,使用戶可以對資源進行個性化的描述,使用戶的使用場景(context)成為資源描述的一部分,例如:我喜歡這首歌,我想買這個手辦,這類標簽時傳統(tǒng)分類所無法支持的。
2、用戶識別
2.1當標簽被頻繁關(guān)聯(lián)到用戶,我們通過標簽就可以更加清楚地認識到我們的用戶,是一個什么樣的畫像,我們就可以針對用戶進行個性化的推薦,或營銷活動的精準化。
例如:用戶經(jīng)常性的聽一些歌曲,這些歌曲都帶有#古典樂#標簽,我們通過用戶的聽歌行為,可以分析出用戶的個人偏好;
網(wǎng)易音樂的個性化推薦
2.2同樣,如果一些標簽被直接定義在用戶身上,我們也可以直接讀取到用戶的標簽形態(tài),對用戶進行一個清晰的認知。
某營銷云軟件
Marlow et al (2006)與Ames & Naaman(2007)曾探討用戶Tagging的動機,表現(xiàn)出社會性與自我性的結(jié)合
標簽社會性、自我性的特點又會帶來另外一個優(yōu)勢:社會化網(wǎng)絡(luò)的構(gòu)建
標簽總是有能力將人或物進行聚合。
從單體角度講,標簽可以具象一個用戶的特征屬性,讓用戶更清晰。
從群體角度講,標簽?zāi)軐⑺袉误w聚合成一個團體。
舉個例子:
例如Flikr上一個語法錯誤、表意模糊的Tag,sometaithurts(so meta it hurts,如此“元級別”,如此痛),卻聚集了來自各色用戶的各色相片。
Tagging的弊端
Tagging最為人所詬病的特性有:缺乏一致性、歧義、語法錯誤。
這是由于與專家相比:
大眾是“懶惰”的:Tagging可能停留在粗淺的表層,而不做深入思考或精準描述。尤其當Tag與系統(tǒng)固有分類維度重合的時候,就會失去價值。
例如為豆瓣上的電影打上“電影”這個Tag的意義是零。
大眾是“虛偽”的:有人會為了讓自己出現(xiàn)在搜索結(jié)果更前面等目的而亂Tag;
大眾很“笨”:拼寫問題:除了拼錯字詞,英文里詞組的分隔、大小寫、單復(fù)數(shù)等就會造成大量混亂的Tag;
沒記性:表現(xiàn)為個人在同一系統(tǒng)中使用不一致的Tag(如字面相異,意義相同等)來標注同一或相似內(nèi)容。
這些都會導(dǎo)致大量污染性的垃圾Tag,即所謂搜索結(jié)果中的噪音出現(xiàn),從而降低檢索效率。
但這并非Tagging的致命傷,通過設(shè)計的引導(dǎo)是可以改善這些問題的。
二、Tagging系統(tǒng)
Tagging系統(tǒng)模型
Marlow et al (2006)提出一個Tagging系統(tǒng)模型,包括資源、Tag、用戶三部分,它們的關(guān)系如圖:
一方面,標簽可以同時用來描述多個資源,這些統(tǒng)一標簽描述的資源彼此具有相似性,標簽促使資源之間產(chǎn)生聯(lián)系;
另一方面,資源可以被多個標簽進行描述,多維度的標簽描述使得資源更加立體,標簽的豐富性使得資源個輪廓更加清晰。
站在用戶的角度,通過標簽對用戶個性化的描述,更容易使用具有相同屬性的用戶聚集到一起,形成細分的概念,便于形成用戶團體的社會化人群,或者方便企業(yè)更加精準的針對人群進行營銷活動的觸達。
針對模型相應(yīng)的設(shè)計維度
Tag清理維護
你能保證系統(tǒng)里的標簽都是用戶真正感興趣的么?高度的標簽自由度讓我們對這一點沒有說yes的勇氣。
舉個例子:
在一個視頻網(wǎng)站中,用戶可能對一個視頻賦予了一個表示情緒的標簽,比如“不好笑”(no funny)。
但我們不能因此認為用戶對“不好笑”有興趣,并且給用戶推薦其他具有“不好笑”這個標簽的視頻。
相反,如果用戶對視頻打過“成龍”這個標簽,我們可以據(jù)此認為用戶對成龍的電影感興趣,從而給用戶推薦成龍其他的電影。
標簽控制
在標簽不斷豐富的過程中,系統(tǒng)內(nèi)標簽的體量會越來越大,站在系統(tǒng)的角度來看,面對越發(fā)泛濫的的Tag我們什么都不做么?
Gruber (2006)提出通過Tag內(nèi)在的規(guī)范名(Canonical Name)對字面各異、實質(zhì)相同的Tag進行清理。
如通過算法將User Experience, UX, user_experience在系統(tǒng)內(nèi)部統(tǒng)一為規(guī)范名User Experience。
無論用戶輸入的是哪個形式的Tag,系統(tǒng)都將返回所有的結(jié)果。
標簽清洗
在標簽體系形成一定體量后,結(jié)合傳統(tǒng)的機器索引、專家人工干預(yù),等一切我們能夠提高標簽質(zhì)量、控制標簽數(shù)量的手段,進行適當?shù)臉撕炃謇怼⒕酆?/p>
主要有三點:
去除詞頻很高的停止詞。
去除因詞根不同造成的同義詞,比如 recommender system和recommendation system。
去除因分隔符造成的同義詞,比如 collaborative_filtering和collaborative-filtering。
注:
停止詞:是由英文單詞:stopword翻譯過來的,原來在英語里面會遇到很多a,the,or等使用頻率很多的字或詞,常為冠詞、介詞、副詞或連詞等。
Tag規(guī)范
1、提供推薦tag建議,盡量引導(dǎo)用戶規(guī)范輸入。
推薦選擇+客戶強制輸入
如羅列個人常用Tag,他人常用高頻Tag,系統(tǒng)默認的推薦標簽,可有效減少拼寫相異語義重復(fù)的Tag,提高Tag之間關(guān)聯(lián)性,并可減輕用戶思考負擔。
根據(jù)用戶的標簽歷史對用戶進行高頻、高質(zhì)的標簽直接添加(感興趣標簽)
根據(jù)用戶輸入內(nèi)容,進行盡可能的內(nèi)容匹配,引導(dǎo)用戶對現(xiàn)有標簽的選擇,盡可能控制標簽的數(shù)量
2、自定義標簽與系統(tǒng)標簽并存,自定義標簽轉(zhuǎn)化為系統(tǒng)標簽。
a自定義標簽轉(zhuǎn)化為系統(tǒng)標簽
b自定義標簽自身通過事件模型進行目標搜索
3、對用戶Tag進行評級,Tag擁有權(quán)重體系。
#草稿#
權(quán)限最終應(yīng)當是通過計算得出,不能簡單的通過客戶配置簡單數(shù)字來實現(xiàn)
規(guī)則
標簽作用范圍(優(yōu)惠碼、人...)、使用頻次(被打到資源上的次數(shù))、使用時間(最近使用時間)、標簽作用資源被產(chǎn)生的行為(商品被購買...)
舉例:
品牌有 蘋果、三星
蘋果被用來描述電腦+手機+pad...
三星被用來描述手機、顯示器...
蘋果被應(yīng)用過,蘋果權(quán)重+1,權(quán)重為1;三星沒有被應(yīng)用過,權(quán)重0;權(quán)重蘋果高于三星
蘋果電腦被買過2,權(quán)重+2,權(quán)重為3;三星被應(yīng)用過,權(quán)重為1,權(quán)重蘋果高于三星
1.7能搜索模糊搜索出標簽+使用頻次權(quán)重就行
End吧
Tag以及Tagging的社會性、自我性,能幫助實現(xiàn)個人化、社會化、情景化搜索
但前提是:
有更成熟的Tagging系統(tǒng)構(gòu)建。
底層技術(shù)上,目前對于垃圾Tag的收斂、清理,做得不夠,也尚未良好地結(jié)合傳統(tǒng)分類與大眾分類。
UI上,尚未實現(xiàn)有效引導(dǎo)用戶去Tag系統(tǒng)已有維度之外、更具附加值的維度。
如在豆瓣上打“友情”這個Tag是有價值的,但打“電影”就無甚價值了。
賣文胸的,我們來談?wù)労献靼桑覀冏鰳撕灥摹?/p>
注:部分圖片內(nèi)容引用自網(wǎng)絡(luò)
2016-12-17 22:24