Help:Om data
Wikidata er en fri vidensbase som kan læses og redigeres af både mennesker og maskiner. Den er blot en af de mange wiki-baserede projekter som drives og vedligeholdes af Wikimedia Foundation, en non-profit organisation for frit indhold, som formentlig er bedst kendt for Wikipedia. Hvert af Wikimedia Foundations projekter har sit eget fokus. Eksempelvis er Wikipedia beregnet til encyklopædisk indhold, Wikimedia Commons understøtter billeder og andre mediefiler og Wiktionary udbyder leksikalsk information om ord, såsom definitioner og synonymer. Wikidatas fokus er strukturerede data.
Denne sides formål er at danne et overblik over strukturerede data. Er du allerede bekendt med strukturerede data, men ønsker at lære mere om dets specifikke anvendelse på Wikidata, om hvordan man tilgår data på Wikidata, eller om hvordan du bidrager dit eget projekts data til Wikidata, så spring frem til sektionen om sammenkædning af data.
Forstå Wikidata
"Strukturerede data" henviser til data som er blevet organiseret og lagret på en veldefineret måde, ofte med det formål at indkode betydning og bevare forholdene mellem forskellige datapunkter i et datasæt.
Men hvad er data egentlig? Og hvorfor skal man være opmærksom på strukturerede data i særdeleshed?
Definition af data
Big data, eksperimentelle data, åbne data, metadata, du har måske hørt om nogle eller alle af disse begreber før.
Hvert udtryk betyder noget lidt forskelligt, men de er alle funderede på en forståelse af data og dets potentiale for at beskrive og forbedre vores forståelse af verden omkring os.
Som et abstrakt begreb kan data forstås som en forløber for information, dvs. at information kan udledes eller afledes fra data.
Dette er fordi data, når det koges ned til sin essens, blot er en samling af "værdier" om "ting". Disse værdier kan være numeriske eller kvantitative som en måling eller en størrelse. De kan også være kvalitative, som en beskrivelse eller en sammenligning. For eksempel kan vi sige at "8.848 m (29.029 ft)" er en dataværdi om højden på Mount Everest og at "rød" er en dataværdi om farven på en bil.
Som tidligere nævnt er information ikke det samme som data, men er i stedet et produkt af indsamlingen og fortolkningen af data. For eksempel er 8.848 (data) et temmelig meningsløst tal i sig selv selv hvis vi ved at det er højden på et bjerg; vi kan først sige at "Mount Everest er med sine 8.848 m det højeste bjerg i verden" (information) hvis vi er bekendte med standarder for højdemål og når vi kender højden på andre bjerge. Det bliver meget lettere at drage sådanne konklusioner, opnå ny indsigt og viden, og fastslå fakta når data er strukturerede. Vi vil vende tilbage til denne idé senere.
Hvor findes data?
Data er overalt omkring os. Der findes mange forskellige slags datakilder, herunder finansielle, biologiske og sociale data. Selv denne side har data! Eksempelvis har den et tal for hvor mange ord den indeholder, datoer for hvornår det blev oprettet og sidst revideret, et emne og stofområde, et tal for sidevisninger, og sprog som indholdet er tilgængeligt på.
Men selv om alt er en potentiel datakilde er data som ikke optegnes og organiseres ikke meget værd. Uden en underliggende struktur fremstår data som betydningsløst og giver ikke brugbar information.
Ved "organiseret" forstår vi "kategoriseret på en standardiseret og utvetydig måde". De organiserede og kategoriserede data er hvad vi hentyder til når vi siger "strukturerede data".
Hvor findes strukturen?
På internettet styrer struktur. De fleste websites er lavet i HTML, et opmærkningssprog der fungerer som grundlaget, eller strukturen, i en webside.
Opmærkningssprog benyttes også til at "tagge" og beskrive sideindhold så søgemaskiner, bots og applikationer såsom RSS let kan behandle og "forstå" det. Eksempelvis fortæller <title>
tags maskiner hvad navnet på et website er.
I stedet for at understøtte strukturen og de almindelige elementer på en webside, giver Wikidata struktur til al viden lagret i Wikipedia og Wikimedias andre projekter. Wikidata er baseret på software fra Mediawiki, lige som enhver anden Wiki. Denne software er udvidet med Wikibase, som er den software, der driver Wikidata, designet til at håndtere store mængder af strukturerede data. Strukturen tilføjes ikke direkte i indholdet på Wikipedia eller andre Wikimedia sider, som for eksempel tabeller og lister. Der kræves heller ikke særlig viden om opmærkningssprog, dataskemaer, objektnotation eller andre særlige syntakser af Wikidatas brugere. I stedet tilføjes og redigeres data på Wikidata gennem brugervenlige indtastnings-formularer.
Alle data, der er lagret på wikidata, kan bruges til at skabe automatiske og opdaterede lister, tabeller eller andre strukturerede sider af enhver slags, som kan anvendes overalt i Wikimedia og andre steder.
Data for bjerge | ||
---|---|---|
Bjerg | Egenskab | Værdi |
Mount Everest | height | 8,848 m |
K2 | hauteur | 8,611 m |
Kanchenjunga | height | 8,586 m |
Lhotse | height | 27940 ft |
Strukturering af data
Som et eksempel på vigtigheden af struktur, lad os da se på tabel 1. I denne tabel ser vi data for de fire højeste bjerge på Jorden. Ønsker vi at kende et bestemt stykke information, såsom højden på verdens næsthøjeste bjerg burde vi være i stand til at se på de angivne data og finde den korrekte værdi. Men kun tre af de fire bjerge har deres data kategoriseret som en højdeværdi og kun to af disse tre bjerge har værdier i meter. Selv om vi ved at height (engelsk for højde) og hauteur (fransk for højde) kan forstås som værende lig med hinanden, og vi ved hvordan man omregner meter til fod eller vice versa, så ved en maskine, såsom en bot eller et computerprogram, det måske ikke.
Det ville være meget nemmere for både mennesker og maskiner at behandle informationen og besvare det oprindelige spørgsmål om det næsthøjeste bjerg, hvis alle underliggende data var optegnet på samme måde, selv om præsentationen af dem er forskellig.
Modellering af data
Samlinger af strukturerede data, såsom Wikidata, organiseres i henhold til en "datamodel". Datamodeller er maskinlæsbare, hvilket vil sige at de kan forstås af en computer. Selvom computere kan meget, er de ofte ikke så kloge som os når det gælder simple ræsonnementer. For eksempel ville en maskine ikke vide at height og hauteur i eksemplet ovenfor er det samme, medmindre den udtrykkeligt fik fortalt, at det er tilfældet.
-
emne: "Jorden"
-
egenskab: "højeste punkt"
-
værdi: "Everest"
Data for bjerge | ||
---|---|---|
Bjerg | Egenskab | Værdi |
Mount Everest | continent | Asia |
K2 | continent | Asia |
Kanchenjunga | continent | Asia |
Lhotse | continent | Asia |
Datamodeller varierer, afhængigt af analytiske behov, datasættets omfang og begrebsramme, og de tekniske krav til et system. Alle datamodeller vil dog typisk specificere, hvilke typer data et system kan understøtte og hvilke forhold mellem værdier, der kan forstås og repræsenteres. Eksempelvis kunne en datamodel specificere at height og hauteur kan omdannes til hinanden, således at begge udtryk repræsenterer det samme begreb. Modellen kan også specificere, at angivelser i måleenheden fod automatisk konverteres til meter. Wikidatas datamodel former den måde data kan tilføjes og redigeres i systemet af dets brugere. Den videreudvikles til stadighed, og nye datatyper vil løbende blive føjet til modellen over tid.
Datamodellen oversætter dybest set almindelige menneskelige sprogmønstre til noget som kan behandles af maskiner. For eksempel ville man på dansk måske sige:
- "Mount Everest er verdens højeste bjerg"
Dette er også det rå, ustrukturerede format som indhold på Wikipedia og alle andre Wikimedia sites på nuværende tidspunkt findes i.
På Wikidata repræsenteres dette ved et udsagn, som består af et egenskabs-værdi-par om et emne, i dette tilfælde Jorden:
Earth (Q2) (emne) → highest point (P610) (egenskab) → Mount Everest (Q513) (værdi)
Endvidere har Wikidata også et udsagn om emnet for Mount Everest (som indikerer, at det er et bjerg):
Mount Everest (Q513) (emne) → instance of (P31) (egenskab) → mountain (Q8502) (værdi)
Bemærk at fordi andre emner kan benyttes som værdier i udsagn, og alle udsagn har deres egen unikke side på Wikipedia, betyder dette at alle emner i systemet kan kædes sammen gennem en serie af udsagn. Fordi Wikidata bruger et maskinlæsbart format, gør denne sammenkædning af data det muligt for maskiner at opdage og behandle nye forhold og forbindelser. Eksempelvis så vi i Tabel 2 nye data om vores bjerge, denne gang om deres geografiske placering pr. kontinent, men intet om deres højde. Hvis disse kontinentdata blev sammenkædet med dataene om bjergenes højde ville vi mere sikkert kunne lave fremskrivninger eller drage bestemte konklusioner om det, såsom at sige at Asien er hjemsted for verdens højeste bjerge.
Sammenkædning af data
Udover at være en samling af strukturerede data understøtter Wikidata også linked data. Linked data henviser til den praksis at man udgiver strukturerede data så den kan sammenkædes.
For Wikidata betyder dette, at data, bidraget af frivillige, også kan kan kædes sammen med andre datasæt, databaser og datakilder overalt på internettet og fra diverse initiativer udenfor Wikimedia-familien. Eksempelvis tillader Wikidata på nuværende tidspunkt sammenkædning med så forskelligartede datasæt og databaser som Google Books, Canmore (en af Royal Commission on the Ancient and Historical Monuments of Scotlands databaser), Vatikanets bibliotek, OmegaWiki, Freebase og MusicBrainz.
Ved at følge principper og praksisser for linked data, er Wikidata også i stand til at understøtte og blive anvendt af andre projekter.
Principper for linked data
Wikidata bruger unikke identifikatorer, uniform resource identifiers (URIs), for alle dets emner i henhold til linked data standarder.
Mens Wikidata anvender en unik data model kan dens indhold eksporteres i RDF, et udbredt og standardiseret format til linked data. I Wikidata-termer består et udsagn af et emne og et egenskab-værdi par. For dem der er bekendte med linked data-begreberne kan et emne ses som subjekt-delen af en triplet; egenskaben repræsenterer en triplets prædikat; og en værdi benyttes til at udtrykke triplettens objekt.
Wikidata udsagn kan dog også indholde elementer udover subjekt-prædikat-objekt, såsom referencer og kvalifikatorer (for yderligere information, se Help:Statements). Dette gør det kompliceret at repræsentere Wikidatas indhold fuldstændigt i RDF-sproget. Yderligere information om disse udfordringer kan findes i dokumentet "Introducing Wikidata to the Linked Data Web".
At bidrage med data
Hvis du har nogle datasæt, du gerne vil bidrage med til Wikidata, så se venligst Wikidata:Data donation.
Tilgang til data
Data i Wikidata udgives under Creative Commons Public Domain Dedication 1.0-licensen, som tillader fri genanvendelse af dataene. Du kan kopiere, ændre, distribuere og offentliggøre dataene, selv i kommercielt øjemed, helt uden at bede om tilladelse.
See Data access for details about the different ways to programmatically access Wikidata's data.
Se også
For lignende sider, se:
For yderligere oplysninger og retningslinjer, se:
- Project chat, her kan du diskutere hvilket som helst emne på Wikidata
- Wikidata:Glossary, en ordliste over begreberne, som anvendes på denne og andre hjælpesider
- Help:FAQ, ofte stillede spørgsmål, som er stillet og besvaret af brugersamfundet på Wikidata
- Help:Contents, hjælpeportalen, som indeholder al den tilgængelige dokumentation om Wikidata