15 febbraio 2006

Folksonomia E Tag: La Ricerca Sul Funzionamento Dei Tag Di Marieke Guy E Emma Tonkin

1. Introduzione

Una folksonomia è un tipo di sistema di classificazione distribuito ed è tipicamente creato da un gruppo di individui ovvero dagli utenti stessi di tale sistema. Gli utenti etichettano con i tags tutto ciò che trovano online, come immagini, video, bookmarks e testi. Questi tag vengono quindi condivisi, aggiornati e rivisti.

Photo credit: Vanderwal.net

Una revisione generale degli strumenti di social bookmarking, area in cui l'uso delle folksonomie è molto diffuso, è stata data nell'edizione di Aprile di D-Lib.

Nell'articolo gli autori analizzano l'approccio utilizzato dai sistemi di classificazione sociale e le motivazioni che spingono ad etichettare. Essi scrivono, "...i tags sono giusto un tipo di metadata e non sono dei sostituti per i sistemi formali di classificazione come ad esempio Dublin Core, MODS, etc.... Piuttosto, sono dei mezzi supplementari per organizzare l'informazione e ordinare i risultati di ricerca."

In questo articolo vedremo cosa effettivamente fanno le folksonomie.

Siamo d'accordo con la premessa fatta che i tags non sono sostituti dei sistemi formali, ma vediamo come questa sembri essere la qualità essenziale che rende l'etichettare folksonomie così utile.

Cominciamo dando uno sguardo alla questione degli "sloppy tags", un problema al quale i critici di folksonomie spesso fanno riferimento, e chiediamo se ci sono dei modi in cui la comunità della folksonomia possa ovviare a tale genere di problemi creando sistemi che favoriscano la ricerca, l'etichettatura e la classificazione.

Quindi passiamo ad analizzare quest'approccio del tipo "metti in ordine" e le sue assunzioni di base, evidenziando le questioni riguardanti l'eliminazione dei metadata di bassa qualità, ridondanti o privi di senso, e i potenziali rischi derivanti dal riordinare in maniera troppo precisa perdendo quindi l'apertura stessa che ha reso le folksonomie così diffuse.

2. Il Difetto Folksonomico

Probabilmente il maggior difetto degli attuali sistemi di folksonomia - e la principale lamentela di quelli che si accontentano dei più formali sistemi di classificazione - è che i termini usati da questi sistemi per etichettare sono imprecisi.

Sono gli utenti di un sistema di folksonomia ad aggiungere i tag, il che significa che i tags sono spesso ambigui, troppo personalizzati ed inesatti. Molti siti di folksonomia ammettono solo metadata formati da una sola parola, rendendo inutili molti termini composti; la maggior parte dei tags sono generalmente pensati come "mono uso": cioè, per comparire una volta sola nel database dei tags. Attualmente ci sono pochi o nessun controllo di sinonimo (parola differente, stesso significato) o di omonimo (stessa parola, significato differente).

Gli amministratori di sistema non giudicano i tag scelti dagli utenti. Le forme plurale e singolare, le parole coniugate e le parole composte possono essere usate, così come i tags specializzati e i "nonsense" tags, concepiti come indicatori unici condivisi da un gruppo di amici o di colleghi. Il risultato è un insieme incontrollato e caotico di etichette che non supportano efficacemente le ricerche come i vocabolari più controllati.

Alcuni utenti non considerano questo un problema; sostengono che i tags servono principalmente ad aiutare lo specifico utente che li propone. In aggiunta, Clay Shirky ha sostenuto che nelle folksonomie non esistono cose come i sinonimi, poiché gli utenti usano i tags per ragioni specifiche. Di conseguenza ogni differente parola selezionata dall'utente ha attualmente un significato unico (ad esempio, cinema e film).

Tuttavia, mentre i sistemi di etichettatura si diffondono sempre più ed i critici del sistema continuano ad alzare le loro voci, molti nella comunità della folksonomia riconoscono, in risposta a tale accusa, che c'è un "difetto folksonomico" che potrebbe aiutare a chiarire il fatto che è possibile ottenere un grande valore pubblico supplementare dai metadata "privati" proposti. L'ottimizzazione dell'input dei tag da parte degli utenti, per migliorare la loro qualità allo scopo di renderli riutilizzabili come parole chiave ricercabili, accrescerebbe il valore percepito dell'approccio di etichettatura folksonomico.

3. Tags creati dagli utenti

Dunque cosa sono esattamente i tag?

Una definizione semplice dovrebbe dire che i tags sono parole chiave, nomi di categoria, o metadata.
Essenzialmente, un tag è semplicemente un insieme liberamente scelto di parole chiave testuali. Tuttavia, dato che i tags non sono creati da specialisti dell'informazione, attualmente non possono seguire alcuna linea guida formale ubiqua. Ciò significa che le voci possono essere categorizzate con qualsiasi parola che definisca una relazione tra la risorsa online e un concetto nella mente dell'utente.

Potrebbe essere scelto un qualsiasi numero di parole, alcune delle quali sono rappresentazioni ovvie, altre hanno meno significato fuori del contesto dell'autore del dato tag.
Due esempi ben noti di sistemi di folksonomia, ai quali faremo molto riferimento in questo articolo, sono Del.icio.us™ e flickr™, entrambe servizi posseduti da Yahoo.

Del.icio.us è un sistema di etichettatura per URL integrato con il browser Firefox per mezzo di bookmarklets (elementi dell'interfaccia http://en.wikipedia.org/wiki/Javascript">JavaScript) ed offre all'utente la capacità di raccogliere e recuperare i suoi bookmarks sul sito del.icio.us e di identificare ogni URL nel bookmark etichettandolo con un metadata appropriato.

Flickr è un sistema online di raccolta di foto che permette agli utenti di identificare le loro fotografie servendosi di un insieme di tag. Ogni sito può essere navigato o cercato per risorse abbinate ad un dato tag.

Per capire come possiamo rendere i tags più ricercabili è importante capire gli utenti e perchè propongono determinati tags. Attualmente, si conosce poco circa il processo di decisione che sta dietro la selezione dei tag e i dati quantitativi sono relativamente scarsi.

Un approccio utile potrebbe essere esaminare le motivazioni degli utenti nell'aggiungere tag vedere perchè scelgono determinate parole, osservare quanti tags aggiungono e confrontare come le diverse voci vengono classificate da utenti differenti. Potrebbe anche essere utile vedere come il feedback influisce sull'uso dei tags e come gli utenti modificano i tags alla luce del comportamento degli altri. Tuttavia, tali studi necessitano di tempo e risorse.

Uno studio su scala ridotta realizzato da Ulises Ali Mejias di Ideant
solleva molti punti interessanti, sebbene fallisca nel trovare informazioni concrete riguardo al perché si prendano determinate decisioni.

Una delle conclusioni che Mejias fa emergere dal suo studio è che sebbene i tags usati hanno spesso un significato nascosto conosciuto solo dal loro creatore, ci sono chiaramente determinati tags (tags ripetuti) che hanno un significato socialmente condiviso accanto al significato personale.

Sono questi i tags che sembrano apportare il maggior beneficio; i metodi sono quindi ricercati per incoraggiare la loro creazione e il loro uso. Anche se questa è chiaramente un'area per ricerche future si conosce di più della distribuzione dei tags. Per esempio, è possibile vedere i top 50 tags forniti dagli utenti di del.icio.us.

Molti siti di folksonomie offrono le visualizzazioni di un terzo dei tag più popolari scelti nella comune etichettatura; ci sono diversi strumenti disponibili che offrono una varietà di metodi di visualizzazione, compresi tag.alicio.us, extisp.icio.us e facetious.

tag.alicio.us è un progetto sperimentale di Olivier Richard che opera come filtro di tag, recuperando i links da del.icio.us a seconda del tag e dei vincoli temporali (ad esempio, tags da questa ora, oggi, o da questa settimana).

extisp.icio.us visualizza una disposizione casuale di determinati tags degli utenti, dimensionata al numero di volte che l'utente ha riutilizzato ciascun tag, e facetious è una ri-editazione del database di del.icio.us, che usa la classificazione sfaccettata, raggruppando i tags sotto titoli come "dal luogo" (Iraq, USA, Australia), "dalla tecnologia" (blog, wiki) e "dall'attributo" (rosso, cool, retrò).

Legge di potere e distribuzione del tag
Adam Mathes, ben noto per il suo documento aggiornato sulle folksonomie, ha suggerito che la distribuzione di tag segue uno scenario di power law.

I tags più usati sono altamente visibili in modo tale da poter essere utilizzati dagli altri utenti (pochi tags usati da molti utenti). Quindi ci sarà un gran numero di tags usati solo da alcuni utenti (molti tags usati da pochi). Ed infine ci sarà un ingente numero di tags usati solo da uno o due utenti.
Mathes spiega,

"Esaminare questo genere di distribuzione di uso di tag potrebbe indicare meglio se una folksonomia converge sui termini e sul consenso adottato, o se mentre l'utente base cresce, anche il vocabolario cresce ad un tasso più uniforme, e la distribuzione dei termini si appiattisce, forse indicando meno accordo."

Popolarità del tag

Prima di scrivere questo articolo abbiamo condotto uno studio in proprio, che raccoglie un insieme di dati del campione per vedere se riusciamo a determinare in che misura le obiezioni popolari all'etichettatura folksonomica sono basate su fatti.

Prendiamo un campione casuale di tags sia da del.icio.us che da flickr. (La metodologia è descritta nell'Appendice 1.) Prendendo un insieme casuale di tags campioni da flickr e determinando la popolarità di ognuno di questi tag, troviamo una distribuzione simile a quella prevista da Mathes. La popolarità dei tags decresce molto rapidamente, la curva risultante cade asintoticamente verso y=1, in una figura caratteristica.

Popolarità dei tags campionati a caso da flickr

La Figura 1 mostra la vastissima gamma di popolarità dei tags piuttosto buoni. Questa distribuzione viene spesso rappresentata graficamente su una scala logaritmica (vedi Figura 2) per comprimere i valori più grandi su una scala ragionevole e migliorare la leggibilità.

Figura 2: Curva di popolarità tag

Questi risultati indicano che i tags mono uso non dominano il sistema di etichettatura.

Secondo il nostro campione, solo il dieci-quindici per cento dei tags provati su Flickr e del.icio.us sono del tipo mono uso.

La massa prevista dei tags usati una volta sola non viene rappresentata in questi risultati. Questo può essere dovuto alla possibilità che il testo di Mathes esamina un periodo di tempo in cui la popolazione di utenti di entrambe i siti era piuttosto bassa. Con la crescita della popolarità, il database diventa sempre più pieno in profondità di tags inusuali, errori di ortografia e termini composti, di modo che il "pavimento" del grafico possa risalire un poco con il passar del tempo.

L'a target="_blank" href="http://weblog.infoworld.com/udell/2005/03/14.html">evidenza aneddotica supporta la visione che esiste una naturale tendenza verso la convergenza dei tags e che le strategie per facilitare tale sviluppo esistono.

Stephen Pinker nel suo testo a The Language Instinct parla del gergo (una combinazione di parole mutuata da un'altra lingua e priva di qualsiasi struttura grammaticale stabile) e delle lingue creole (una combinazione di parole mutuata da un'altra lingua con un'unica grammatica imposta).

Egli sostiene che il creolo diventerà un gergo se alla gente verrà data la possibilità di parlarlo con gli altri. Si potrebbe sostenere che in modo simile i servizi di etichettatura sociale generano tipi di ambienti nei quali possiamo sviluppare vocabolari di metadata in maniera naturale.

Lo sviluppo qui menzionato fa riferimento alla produzione di una singola e piuttosto stabile ontologia condivisa, e questa affermazione è giusta in quanto l'esempio di Pinker è riferito ad una singola comunità. All'interno di un dato scenario di aggregamento culturale o sociale il processo progredisce mentre il sistema riflette le scelte linguistiche attualmente preferite, sostenendo ogni partecipante nei suoi contributi al gruppo.

4. Migliorare l'Istruzione dei Tag

Dato che esiste già un movimento che spinge verso la convergenza dei tags, in che modo possiamo incoraggiare questa tendenza?
Attualmente esistono due modalità principali in cui i metadata creati nelle folksonomie possono essere migliorati per aiutare la ricerca:

1) Istruendo gli utenti ad aggiungere tags "migliori"

2) Migliorando i sistemi che permettono di aggiungere tags "migliori"

Istruire gli utenti

Attualmente la maggior parte degli utenti non presta molta attenzione al modo in cui etichetta le risorse e, di conseguenza, le folksonomie sono piene di tags cattivi e "sloppy". Gli errori principali sono elencati come segue:

Errori di ortografia (ad esempio, libary, libray)

Errata codifica dei tag, come gli improbabili raggruppamenti di parole composte (ad esempio, TimBernersLee)

Tags che non seguono nessuna convenzione in questioni come il caso e il numero; forma singolare contro forma plurale (ad esempio, mela, mele)

Tag personali privi di significato per la maggior parte della comunità (ad esempio, miocane)

Tag mono uso che compaiono solo una volta nel database . (ad esempio, billybobsdog)

Affinchè le folksonomie offrano un contributo maggiore nell'ambito del valore sociale, molti pensano che la creazione dei tags necessiti di molta più competenza; e allora sono quelli descritti sopra i veri problemi?

Etichettatura osservata

Ritornando ai tags campionati a caso da flickr e da del.icio.us, possiamo osservare i seguenti difetti.

Errori di ortografia, codifiche errate e parole composte: Testando a confronto con un dizionario multilingua, abbiamo riscontrato che il 40% dei tags di flickr e il 28% di quelli di del.icio.us erano entrambe mal compitati, non fruibili attraverso il software usato, codificati in modo non comprensibile al dizionario o si trattava di parole composte costituite da più di due parole o da un misto di lingue.

Parole che non seguono le convenzioni di etichettatura del sistema: Quasi l'8% dei tags di flickr e oltre l'11% di quelli di del.icio.us erano parole alla forma plurale.

Simboli usati nei tags: Simboli come # sono stati usati per etichettare i primi tags, probabilmente per un effetto casuale come, ad esempio, per forzare l'interfaccia di del.icio.us ad elencare i tags in cima ad un elenco alfabetico.

Tuttavia, abbiamo osservato che i tags mono uso erano meno comuni di quanto ci aspettassimo.
Le strutture, eccetto le parole del dizionario, ammontano alla maggior parte dei tags trovati nel nostro studio.

La parole composte spesso contengono numeri, in costrutti del tipo "17thjuly", o "April11". Le convenzioni sono diventate popolari, come le date realizzate secondo lo standard ISO (ad esempio il 20051201 dell'"1 Dicembre 2005") e l'uso dell'anno come tag.

Una convenzione largamente diffusa è il geotagging (etichettatura geografica), un semplice metodo per codificare latitudine e longitudine in un unico tag; esso rappresenta più del 2% del totale dei tags campionati su flickr.

Una comune fonte di errori di ortografia era rappresentata dalla transcodifica degli altri alfabeti o caratteri. Ad esempio, l'umlaut, comunemente usato in Tedesco, viene solitamente rappresentato tramite la serie di caratteri Latin-1. Dal momento che questa serie di caratteri spesso non è disponibile, i tedeschi di solito rappresentano un carattere umlaut sfruttando una scrittura normale, come "ue" per "ü". Questo caso particolare si è riscontrato in parecchi dei tags campionati da del.icio.us.

Questioni tecniche simili si verificano con la codifica dei caratteri in parecchie altre lingue, come il Cinese, il Giapponese, il Russo o il Ceco. (Questo ci induce ad ipotizzare che la diffusa adozione da parte degli utenti (e l'accresciuta confidenza con) dell' Unicode potrebbe rivelarsi un fattore preponderante nel successo delle folksonomie nello scenario mondiale.)

Nonostante la grande quantità di tas trovati nei nostri campioni presi da flickr e da del.icio.us messi insieme rappresentino un valido dizionario della lingua inglese usando l'ortografia americana o inglese, sono presenti anche i tags degli altri paesi e possono presentarsi in varie lingue straniere

Figura 3: Stima dei tag di lingua presi dal campione casuale di del.icio.us e di flickr

La misurazione accurata della lingua sorgente dei tags è ostacolata sia da questioni tecniche sia dal fatto che esistono molti termini in più lingue, anche se frequentemente presentano significati o strutture grammaticali differenti; ad esempio il termine "son" in Inglese, come in father-son, viene usato in Francese come un aggettivo possessivo, e in Spagnolo come una forma del verbo ser, essere. Fortunatamente, la maggior parte, quasi il 90% delle parole del dizionario riscontrate che compaiono in entrambe i campioni di del.icio.us e di flickr sono nomi.

Tuttavia, la confusione inerente l'etichettatura folksonomica appare molto chiaramente in una caratteristica comune a più del 10% di tutti i tag campione presi da del.icio.us - molti utenti hanno provato a creare parole composte senza semplicemente concatenare insieme le parole, ma inserendo nel tag un simbolo o un segno di punteggiatura per rappresentare uno spazio.

Ciò era particolarmente interessante, perchè sembrava che alcuni utenti stessero tentando di stabilire una struttura gerarchica per costruire un "percorso" all'interno dei tags. Ad esempio, un utente che etichetta parecchie pagine web all'interno di del.icio.us a proposito dei linguaggi di programmazione potrebbe etichettare un argomento come "Devel/C++", un secondo argomento come "Devel/BASIC", un terzo come "Devel/Perl", e così via.

Figura 4: Separatori di parola composta di del.icio.us

Guardando la varietà di simboli scelti a questo proposito (vedi Figura 4), è chiaro che non è stato scelto nessun accordo o convenzione dalla comunità degli utenti di del.icio.us per svolgere il ruolo di "spazio non-interrompibile". Poichè questi tags composti sono molto diffusi all'interno di del.icio.us, questo è un esempio di come dei piccoli consigli potrebbero beneficiare alla comunità dell'etichettatura nella sua totalità.

Metodi per migliorare i tags
Come molti nel mondo dell'informazione sapranno, migliorare la qualità dei metadata creati dagli utenti non è un fenomeno nuovo. Gli esperti dell'informazione si sono scontrati molte volte con questioni complesse ed hanno suggerito vari rimedi.

Ad esempio, in un articolo di Ariadne intitolato "Improving the Quality of Metadata in Eprint Archives", , gli autori suggeriscono l'inserimento di processi di garanzia della qualità nella creazione di metadata.

Per avere successo nel tentativo di migliorare l'istruzione dei tag (o la tag etichetta) nel mondo della folksonomia implica due processi.

In primo luogo, la Comunità deve essere pronta a fissare delle regole e a mettersi d'accordo su un insieme di standard da adottare per i tags. In secondo luogo, gli utenti necessitano di essere informati e di mettersi d'accordo per seguire queste regole.

Attualmente, sebbene non ci siano delle linee guida standard sulle pratiche di selezione dei tags validi, quelle sopra elencate hanno offerto molti spunti nella comunità della folksonomia. I modi in cui i tags possono essere migliorati sono frequentemente riportati sui blog e sui siti di discussione di folksonomia.

In quest'articolo sull'istruzione dei tag, Ulises Ali Mejias suggerisce un serie delle "migliori pratiche" per la selezione dei tags.

Esse includono

usare il plurale piuttosto che il singolare

usare il minuscolo

raggruppare le parole usando la sottolineatura

seguire le convenzioni di etichettatura iniziate da altri e aggiungere sinonimi.

Altre raccomandazioni da parte di Mejas e altri impegni in quest'area sono "pensare nello specifico e in generale allo stesso tempo" e che i tags personali sono utili quanto più sono usati anche i tags generici .

Il consenso su questi punti nella comunità della folksonomia e che i tags a venire siano sempre migliori. Molte folksonomie permettono agli utenti di modificare i loro tags e questo genera una considerevole possibilità per gli utenti di ridefinire le etichette che hanno già creato.

Sebbene questo punto sia stato largamente discusso, ogni tentativo di introdurre una "soluzione migliore" per gli utenti per etichettare i siti quasi sicuramente richiede l'entusiasta partecipazione degli sviluppatori e degli amministratori del sito. Si è potuta dimostrare la fondatezza dell'istituzione di un consorzio costituito dai più popolari siti di folksonomia, per realizzare una lista di linee guida generali.

L'etichettare potrebe essere migliorato attrezzando gli utenti con una serie di utili strumenti euristici che promuovono una buona selezione di tag, come una lista di verifica delle domande che potrebbe essere applicata all'oggetto che è stato etichettato, allo scopo di indirizzare l'etichettatore alle diverse caratteristiche salienti.

Un'altra idea che potrebe essere implementata è di introdurre strutture all'interno dei tags.
Attualmente, i tags sono generalmente definiti come parole singole o composte, il che significa che l'informazione può andar persa durante il processo di etichettatura. I tags di una singola parola perdono l'informazione che verrebbe generalmente codificata nell'ordine di parola della frase.
Questo si nota spesso in Inglese, con la dissociazione degli aggettivi dai nomi.

Ad esempio, quando si etichetta una foto potrei desiderare di usare dei tags per descrivere un gatto nero e un cane bianco. Una volta che i tags di una sola parola "nero", "gatto," "bianco" e "cane" vengono immessi nel database, il loro significato va perso. Gli utenti che effettuano una ricerca non sanno quale animale sia nero e quale sia bianco. Tuttavia, il problema della dissociazione aggettivi/nomi non ha la stessa rilevanza nelle diverse lingua. In alcune lingue la questione viene aggirata o moderata, come in quelle lingue, ad esempio il Russo o il Tedesco, che impongono la declinazione di nomi e aggettivi in casi. Riguardo alle parole composte, le convenzioni private vengono scelte dagli individui per indicare relazioni all'interno di uno spazio di nome altrimenti piatto, ma queste indicazioni vengono applicato per uso personale, non sono standard e quindi non possono essere potenziate per alcun comune vantaggio.

La popolarità dei tags composti, inclusi quelli che concatenano più di due parole, potrebbe suggerire che gli utenti perdono la ricchezza data dalla struttura della frase. Se è davvero così, una saggia soluzione potrebbe prevedere di scegliere ed imporre un metodo autorizzato di concatenazione dei termini - lo "spazio non-interrompibile" menzionato prima.

Sebbene molte parole composte sono realizzate usando caratteri di separazione, come questo_è_un_tag o io+etichetto+quindi+io+sono, o separando le parole come nel caso CamelCase (cioè formattando ogni parola con la lettera iniziale maiuscola per migliorarne la leggibilità), da oggi, esiste un ampio numero di tags che sono concatenazioni letterali di parole, molto difficili da analizzare utilmente, come ad esempio "questoèuntagspeciale".

Dividere questi tags attualmente genera particolari difficoltà per gli sviluppatori, analogamente alle difficoltà create dalla traduzione automatica dalle lingue che ammettono le parole composte, come il Tedesco, il Finlandese o il Greco.

Sollecitare alla loro sostituzione migliorerebbe il loro potenziale con funzionalità di ricerca più ricche, come cercare per tags che includono un dato nome o aggettivo, o almeno un incremento della credibilità delle congetture riguardo alla lingua usata per scrivere il tag stesso.

Un'altra area interessante per delle considerazioni è quella dei pacchi di tag. Cioè etichettare i tags in modo tale da creare delle folksonomie gerarchiche. Molti hanno parlato di come le folksonomie devono evolversi sfruttando i links in sistemi più formali.

Come spiega Louis Rosenfeld :

"Infatti, è eccitante considerare come questi due approcci potrebbero integrarsi e funzionare come un tutt'uno.
Nessuno dei due lavora bene individualmente: i vocabolari controllati omettono gli input forniti dagli autori del contenuto e diventano rigidi, non aggiornati, e distanti dal gergo degli utenti; le folksonomie cominceranno a disgregarle per le ragioni menzionate sopra.
Considerarli come le parti importanti dell'ecologia del metadata singolo ha messo in evidenza una simbiosi utile: incoraggiare gli autori e gli utenti a generare folksonomie ed usare questi termini come candidati da immettere in vocabolari controllati più ricchi e più aggiornati, che possano divenire i migliori supporti per la findabilty."

Molti etichettatori di del.icio.us hanno fissato una pseudo-gerarchia riservata di termini stabilendo che assomiglino alle strutture delle directory, come ad esempio Programming/C++, Programming/Java, Programming/XHTML. Ancora, molti etichettatori su del.icio.us hanno scelto di etichettare gli URLs con altri URLs, come usare l'indirizzo web di base per il server (ad esempio, un tutorial di programmazione in C# potrebbe essere etichettato con http://www.microsoft.com). È difficile essere in disaccordo.

Quando uno etichetta una fotografia solitamente include il luogo come uno o più tags. Quando uno etichetta una risorse digitale potrebe usare la struttura associata al tag che sul web corrisponde alla posizione generale del tag stesso - e cosa potrebbe essere più logico di far riferimento ad una struttura che uno sa essere rappresentata da un'unica stringa d'identificazione, il loro indirizzo internet? Ciò nonostante, c'è qualcosa di assurdamente ricorrente in questa pratica di etichettatura.

Sistemi intelligenti

Parallelamente ad educare gli utenti, c'è molto che gli sviluppatori di sistemi possono fare per migliorare i dati finali che i loro sistemi stanno aiutando a generare.

Ci sono due modi principali secondo cui apportare i miglioramenti.

In primo luogo, molto può essere fatto nel momento in cui nuove risorse vengono apportate al sistema. Un semplice controllo degli errori potenzialmente rende noto un certo numero di tag errati - sebbene si verifichino meno errori di ortografia di quanto ci si possa aspettare. Ancora, alcuni siti generano già dei suggerimenti per etichettare quando gli utenti presentano le risorse. Scrumptious, una recente estensione di Firefox, offre tags popolari per ogni url. I sistemi potrebbero facilmente suggerire i sinonimi, l'espansione degli acronimi e come fare quando gli utenti scrivono nei loro tags.

In secondo luogo i miglioramenti possono essere apportati al modo in cui i sistemi cercano fra le risorse già presenti in essi. I suggerimenti di sinonimo possono essere generati anche qui, suggerendo, per esempio, "ladybug" invece di "ladybird".

Un'area d'opportunità trascurata è quella riguardante più strumenti di discussione attraverso i quali gli utenti possono condividere le ragioni per etichettare le risorse in un certo modo. Al momento c'è poca discussione sui siti di folksonomia circa l'adeguatezza dei tags. Molti siti non offrono l'opportunità di fornire un feedback testuale aggiornato, benché alcuni permettano di modificare i metadata degli altri utenti. Alcuni sistemi forniscono anche pochissime informazioni circa l'etichettatore del tag che si sta visualizzando; un maggiore delineamento dell'utente potrebbe aiutare a migliorare la navigazione - per esempio, la lingua preferita dell'etichettatore è un elemento importante dell'informazione contestuale.

Una maggiore conoscenza di chi sta presentando determinati tags potrebbe alterare la personale valutazione dei post (ad esempio, "Bob ha presentato questo, è in PHP e sembra essere un bravo ragazzo, dunque lo considererò utile"). Un sito che considera il profilo dell'utente è Collaborative Rank, ovvero valuta la gente in base a quanto utili e aggiornati sono i suoi suggerimenti. Ci sono ovvi pericoli nel generare un ciclo di feedback positivi lì dove tags potenzialmente inadeguati possono essere riutilizzati a causa della loro iniziale popolarità e la loro successiva diffusione come tag di raccomandazione.

Questo porta a chiedersi se è preferibile avere dei tags popolari (ma forse non immediatamente intuitivi), oppure avere una più ampia diffusione di tags relativamente poco comuni, che garantiscano una riflessione possibilmente più accurata o una più larga diffusione dei diversi punti di vista. Nelle folksonomie come altrove, la probabile risposta è "dipende".

5. Mettendo tutto a posto

Ora che abbiamo qualche idea su come migliorare i tags, è tempo di considerare la possibilità di analizzarla nella pratica?

Esaminare l'uso dei tags e l'eventuale convergenza oppure il consenso su certi termini è indubbiamente un esercizio avvincente. Tuttavia, implementare strategie basate su queste assunzioni nel mondo reale deve essere affrontato cautamente, poiché c'è una significativa limitazione da prendere in considerazione: i vari individui che generano e usano i tags sono geograficamente e culturalmente diversi.

La forza di un approccio folksonomico è spesso identificata con la sua apertura, l'abilità di ogni dato utente di descrivere il mondo così come lui o lei lo vede.

Ci si può aspettare di raggiungere un utile consenso?
Tale consenso è desiderabile in un sistema di etichettatura?
Nei sistemi basati su tag ci sono almeno due gruppi di stakeholders: quelli che generano i metadata in forma di tags e i fruitori di tali metadata.
Questi gruppi possono coincidere; tuttavia, non c'è nessuna ragione di pensare che i consumatori di metadata debbano avere confidenza con i processi di creazione degli stessi. Mentre la scelta dei contributi da apportare al vocabolario può essere "rafforzata" dai vari mezzi discussi in questo articolo, il consumatore di metadata non può godere del beneficio di quel processo.

Clay Shirky nota che:

"Con una molteplicità d punti di vista la questione non è se "qualcuno sta etichettando ogni dato link 'correttamente'", ma piuttosto se "Lo sta facendo nella maniera in cui lo farei io?"
Fino a quando un'altra persona etichetta qualcosa nel modo in cui vorresti, lo troverai - usando un lessico che racchiude i tags di tutti in una più stretta sincronia peggiorerebbe realmente il rumore che si otterrà con il segnale. Se non esiste una piattaforma, allora persino immaginare che esiste un modo giusto di organizzare le cose è un errore."

È possibile che nel tentativo di riordinare i tags stiamo perdendo il legame, l'attrazione o l'essenza stessa delle folksonomie?
Le folksonomie sono diffusamente legate allo studio antropologico delle folk taxonomies", uno studio amato dagli antropologi cognitivisti degli anni '60 , ma l'importanza di questo frammento d'informazione è spesso eclissata dalla percezione odierna delle folksonomie come un meccanismo diffuso di creazione dei database di ricerca popolati dagli utenti. Rivedere brevemente le origini del termine è utile solo se colleghiamo le discussioni qui presentate ai lori studi antecedenti.

Una tassonomia folk è più facilmente definibile in contrapposizione ad una tassonomia scientifica, un sistema di nominazione da applicare oggettivamente, indipendentemente dalle questioni sociali. Le tassonomie scientifiche, come ad esempio il sistema tassonomico Linnaean, devono essere applicate indipendentemente dai sentimenti personali riguardo le tematiche trattate.

L'emergere delle "tassonomie folk" ha riconosciuto i nomi comuni come degni di essere menzionati come parti delle funzioni utili in un contesto sociale e culturale, e lo studio delle tassonomie folk ha goduto di popolarità per un certo periodo di tempo. Tuttavia, da questo lavoro sono stati estratti pochi risultati generalizzabili e l'attenzione è stata focalizzata su domini semplificati artificialmente e spesso privi di significato semantico. Alla fine esso è stato ri-editato come una fase nello studio delle strutture della conoscenza, del consenso e della comprensione all'interno dei gruppi.

Il lavoro successivo da un certo numero di domini fornisce alcune intuizioni relative al problem domain, ma il campo è complesso e comprende la cultura, la lingua e il pensiero. Su alcuni dettagli è stato raggiunto un accordo; la gente sembra pensare in termini di domini e il dialetto rappresenta un indicatore della classe sociale, del livello di educazione e dell'età.

Il sottoinsieme di una lingua usata in una determinata situazione (la natura situata nella scelta di un vocabolario o del modo di parlare) è sia affascinante che disorientante. In termini di internet, questo si riscontra molto nei termini di "comunità di linguaggio", gruppi di persone che condividono un determinato vocabolario o gergo.

Le forze e le debolezze delle folksonomie all'interno dei sistemi di classificazione emergono dalla natura del linguaggio usata nel contesto. Il poema di Thomas Hardy An An August Midnight beneficia del suo dialetto:

On this scene enter - winged, horned, and spined - A longlegs, a moth, and a dumbledore

Egli avrebbe potuto scrivere "A crane fly, a moth and a bee", abbandonando l'opportunità di infondere un pò di colore locale, ma la scelta di usare il dialetto e i nomi comuni è stata ispirata e il poema ha tratto beneficio da questo. Tuttavia, non sarebbe lo stesso per un motore di ricerca. A meno che non sia munito di un dizionario capace di collegare longlegs con Harry Long Legs, father long-legs, daddy-long-legs (ed ignorare uno degli spider che dividono il nome!) e la famiglia Tipulidae, la ricchezza di vocabolario di Hardy provocherà quasi inevitabilmente un tag di uso ristretto con un basso valore sociale - sarebbe a dire, un tag di poca utilità come termine di ricerca.

Ancor peggio, il vocabolario inusuale di Hardy è stato eclissato in termini di significato; senza la possibilità di immettere un piccolo contesto nella ricerca del bombo di Hardy, un modo di convincere il sistema che stiamo cercando l'insetto animato ma non umano meglio noto con il nome di "dumbledore", piuttosto che l'Headmaster dell'Hogwarts di Harry Potter, è improbabile che la firma del bombo sia ricercabile attraverso il rumore generato dalla creazione di JK Rowling.

Hardy è diventato la vittima di uno scontro di parola; puoi verificarlo interrogando Google per il termine "Dumbledore". La ricerca per l'ambiguo "Dumbledore" fornisce 1,870,000 risultati. Riducendo il contesto, potremmo cercare per "Albus Dumbledore" per il mago gentleman, producendo 434,000 risultati e "moth dumbledore" per l'insetto, ricevendo 758 risultati scarsi, molti dei quali relativi al nostro poeta.

Le interfacce disegnate per generare questi tags, questi dialetti e questi termini inusuali, arcaici o conflittuali, sono un tentativo di costruire una stabile, robusta e ben definita tassonomia dei termini generati dagli utenti.
Un'analogia può essere individuata tra quanto detto sopra e i vari tentativi di riformare la lingua Inglese, come l'avvento del Received Pronunciation English, o le varie mode per le parole di origine Sassone o Normanna. Anche se bene intenzionate, tali riforme storicamente risultano essere più una questione di moda che di innovazione e non ci si può affidare ad esse per creare una forma più stabile di lingua.

6. Conclusioni

Le indagini presentate in questo articolo sono brevi, semplici e relativamente non scientifiche, come i numeri in esse forniti.

Il fatto che sia i risultati di del.icio.us che quelli di flickr hanno condotto a dei risultati piuttosto simili implica che essi possono essere affidabili solo tanto quanto lo dovrebbe essere un piccola, seat-of-the-pants, periferica analisi. Solo coloro che hanno accesso diretto ai database di del.icio.us e di flickr possono essere informati dell'effettivo stato degli affari e di come esso è cambiato nei mesi.
Si consiglia ai lettori curiosi di svolgere le indagini in proprio.
Per in nostri propositi, le caratteristiche interessanti dei tags non si riscontrano nelle precise percentuali di uso, ma nella scelta del tag, della struttura e della lingua.

Un terzo dei tags era "malformato", in quanto, per una ragione o per un'altra, erano soggetti allo stretto controllo di un correttore ortografico multilingua. Molti di questi tags non presentavano errori di ortografia, ma di costrutto, alcuni di questi in maniera correggibile.

Eppure, il problema reale con le folksonomie non è la loro etichettatura caotica ma il fatto che stanno provando a servire due padroni nello stesso momento; la raccolta personale e quella collettiva.

È possibile ricavare il meglio da entrambe?

Attualmente sono in corso molte indagini sui dati dei tag che includono studi su come i tags possono essere usati per la ricerca.

Di conseguenza, lo sviluppo in questo campo tende a concentrarsi sui metodi per migliorare la qualità dei tags generati degli utenti per questo scopo.

In pratica, questo implica prediligere i tags scelti comunemente rispetto a quelli mono uso o raramente usati attraverso i vari mezzi, come il miglioramento dell'interfaccia utente, l'uso dei sinonimi e così via.

È possibile che i dati raccolti attraverso l'etichettatura delle folksonomie siano più completi di quanto avevamo immaginato. Ottenere più informazioni da quei dati può essere il modo in cui sviluppare un insieme appropriato di algoritmi; in altre parole, ri-analizzare i dati da un diverso punto di vista può rivelarsi molto utile in alcune categorie, come quelle degli "sloppy" tags.

Alcuni tags mono uso sono progettati come tali, come gli indicatori di latitudine/longitudine usati dal geotagging (flickr). Alcuni possono essere percepiti come importanti e utili dal lettore. Alcuni possono essere infinitamente utili per cercare propositi solo se l'informazione da essi fornita è accessibile in maniera appropriata.

È quindi preferibile che, anziché distruggere i tag mono uso o sloppy, ogni voce sia etichettata usando un approccio misto che includa parecchie parole chiave facili per la ricerca?
Possiamo essere sicuri che addestrare l'utente su una scelta relativamente ristretta di tags sia puramente benefico, sempre che sia possibile?

Non è improbabile che emergano ulteriori usi dei metadata folksonomici. In altre parole, è la nostra miope visione dei sistemi di ricerca basati sui tag che ci porta a considerare i metadata quali i tag mono uso come inutili, quindi come "difettosi", nel momento in cui questi tags possono essere usati in un altro dominio o contesto?

Questi tags, oltre ad essere usati come termini di ricerca, hanno valore per un altro stakeholder?
Questi sono argomenti per ulteriori esperimenti e osservazioni.

Con l'evolversi dei vari sistemi per etichettare gli "sloppy" tags possono essere eliminati. I cambi d'interfaccia possono essere finalizzati allo scoraggiare certe pratiche come l'uso dei prefissi per spingere un tag all'inizio di una lista di ricerca e consigliarlo agli altri, oppure come l'uso di un metodo standard per coloro che intendono creare frasi di tag. Le parole composte in maniera arbitraria e gli errori di ortografia possono diventare meno frequenti e meglio gestiti dall'interfaccia di ricerca.
Ma con lo sviluppo in grandezza e diversità della comunità che fa uso di ogni sistema di etichettatura emergono altri problemi.

I sistemi pensati per costruire tags comuni o popolari sono addestrati ad appoggiare l'egemonia dei tags creati dalla prima generazione di utenti; per cercare efficacemente, i nuovi utenti devono tirare a indovinare le convenzioni usate, a loro non meno conosciute di quanto non lo siano le tassonomie formali rimpiazzate dalla folksonomia.

Migliorare l'usabilità fra culture necessita il riconoscimento di questioni quali la lingua, il dialetto e il gergo. Scoraggiare gli utenti può voler dire che loro semplicemente non si preoccupano di etichettare altre risorse.

La risposta è mantenere una mentalità aperta e guardare alle soluzioni che conservino il maggior numero di tags esistenti, tenendo a mente che i metadata possono essere distrutti in qualsiasi modo.

Amy Gahran di Contentious osserva che "Una folksonomia si crea, diverge ed evolve molto nel senso della lingua, attraverso l'uso e l'interazione." Questa è una delle grandi forze della folksonomia. Esiste un pericolo concreto che riordinando i tags stiamo assecondando l'implementazione di una soluzione distruttiva che può far perdere importanti metadata.

Le due domande che dobbiamo porci sono:
1) Anche contemplando che un tale successo sia possibile, desideriamo veramente un mondo in cui tutti parlano una lingua collaborativa e definita simile all'Inglese della Regina?
2) In che misura, in questo caso, con un database incredibilmente complesso e importante fatto dai contributi degli utenti di tutto il mondo, è possibile separare il metaforico baby dal bathwater?

Appendice 1: Metodologia
In questo articolo, abbiamo provato a determinare quanto le diffuse obiezioni popolari all'etichettatura delle folksonomie siano in realtà motivate. Quindi, un primo passo necessario era la raccolta di un insieme di dati del campione con i quali lavorare. Per stabilire questo insieme di dati abbiamo prelevato i tags campione da del.icio.us e da flickr nel seguente modo:

Un gran numero di username è stato raccolto dall' "Ultimo aggiornamento" di ogni sito web. Questi sono stati utilizzati per accedere agli RSS feed dei tags di ogni utente lì dove fosse possibile, oppure alla lista web nel caso in cui non fosse possibile. I tags ottenuti sono stati quindi messi insieme. È stato scelto un sottoinsieme casuale di quasi tremila di questi tags ed è stata calcolata la ricorrenza di ogni tag.

Questa metodologia chiaramente non fornisce informazioni circa la popolarità dei tags usati più frequentemente, poiché è probabile che solo una piccola percentuale dei tags usati più frequentemente sia rappresentata nel sottoinsieme scelto. Tuttavia, i tags meno popolari erano più interessanti ai fini di studio dell'articolo.

Per analizzare l'ortografia dei tags, abbiamo utilizzato il comune tool Unix aspell, controllando ogni tag con parecchi dizionari per mezzo di un Perl script. Per i tags che sono stati riconosciuti con successo in Inglese, la classe della parola è stata determinata usando il sistema di riferimento lessicale Wordnet della Princeton University.

L'accuratezza di questi risultati potrebbe essere migliorata ulteriormente utilizzando un sistema che divida le radici della parola, particolarmente nelle lingue diverse dall'Inglese, ad esempio usando il modulo Stem della Perl Lingua.

Informazioni sugli autori:
Questa ricerca è stata originariamente scritta da
Marieke Guy and

Emma Tonkin
ed è stata originariamente pubblicata il 17 Gennaio 2006 da D-Lib magazine con il titolo:
Folksonomies - Tidying up Tags?
Ripubblicata con il permesso degli autori.

Folksonomia E Tag: La Ricerca Sul Funzionamento Dei Tag Di Marieke Guy E Emma Tonkin

Cerca in questo sito con

I Toolkit di Robin