Commons:Maschinenlesbare Daten
Auf Commons sind viele Metadaten (einschließlich Lizenz und Autor) nicht maschinenlesbar. Mit dem API-Modul iiprop=extmetadata können einige Werte (example) ausgelesen werden, jedoch sind die Informationen als Freitext auf der Dateibeschreibungsseite eingegeben; dies ist nicht perfekt. Das laufende Projekt Strukturierte Daten auf Commons zielt darauf ab, die Metadaten als vollständig strukturierte Daten zu verschieben und ersetzt schließlich die auf dieser Seite vorgestellten maschinenlesbaren Daten.
In der Zwischenzeit und um den Übergang zu strukturierten Daten zu einem späteren Zeitpunkt zu erleichtern, verwendet Wikimedia Commons einige Standardvorlagen, die eingeschränkt, über HTML-Elemente, maschinenlesbar sind. Einige Skripte und Programme nutzen das bereits. Es ist erwähnenswert, dass diese Daten allen Wikis, die Wikimedia-Commons-Bilder einbinden zur Verfügung stehen, wo sie aus dem HTML-Quelltext der Datei, genauso wie andere lokale Daten, extrahiert werden können.
Maschinenlesbare Daten
Maschinenlesbare Daten aus Infoboxen
Es gibt verschiedene standardisierte Infobox-Vorlagen, die einige Elemente der Vorlage mit Markierungen versehen, um Informationen extrahieren zu können. Folgende verschiedene Markierungen werden benutzt:
- Microformat Markierungen folgen Industriestandards und können mit bereits vorhandenen Werkzeugen extrahiert werden.
- <td> id Attribute (Identifiers) sind benutzerdefinierte, vollständigere Markierungen, die mit anwenderspezifischen Werkzeugen gelesen werden. Die meisten Infoboxen haben zwei Spalten: Spalte 1 enthält den Namen des Feldes und Spalte 2 den Wert.
- <td> id Attribute markieren normalerweise den Namen in der ersten Spalte. Um den Wert zu bekommen muss der Inhalt der folgenden
<td>
Zelle in der zweiten Spalte gelesen werden. - Die Vorlagen {{Creator}} und {{Institution}} haben eine kompliziertere Struktur, deshalb werden die Zellen mit den Werten gekennzeichnet mit
Attributen in mangenta
.
- <td> id Attribute markieren normalerweise den Namen in der ersten Spalte. Um den Wert zu bekommen muss der Inhalt der folgenden
Vorlage | Vorlagenparameter | Beschreibung | <td> id Attribut | Mikroformat | Anmerkung |
---|---|---|---|---|---|
{{Information}} | description | Dateibeschreibung | fileinfotpl_desc |
hProduct.description. | Enthält oft mehrere mit {{Lang}} versehenen Sprachen. |
{{Information}} | date | Datum der Erstellung des Original-Werks | fileinfotpl_date |
hCalendar vevent.dtstart | Manchmal zusätzlich oder nur das Veröffentlichungsdatum. Diese beiden Daten haben unterschiedliche Bedeutungen für das Urheberrecht. Bei Verwendung kann {{Date context}} den Unterschied anzeigen. Mikroformat hinzugefügt durch Vorlage {{Date}} |
{{Information}} | source | Dateiquelle | fileinfotpl_src |
Enthält oft ganze Tabellen. Wir haben keinen guten Weg mit diesen Vorlagen umzugehen. Quellenvorlagen haben oft Verweise zu Katalog-IDs, welche jedoch auch nicht maschinell lesbar sind. | |
{{Information}} | author | Urheber der Datei | fileinfotpl_aut |
Dies kann entweder ein Autor, Ersteller und/oder ein Urheberrechtshalter sein und wird durchmischt genutzt. Enthält oft die {{Creator}}-Vorlage, welche unten erklärt wird. | |
{{Information}} | permission | Genehmigung und Lizenz für die Datei | fileinfotpl_perm |
||
{{Information}} | other versions | Andere Versionen der Datei | fileinfotpl_ver |
||
{{Artwork}} | description | Beschreibung des Kunstwerks | fileinfotpl_desc |
hProduct.description | |
{{Artwork}} | date | Erstellungsdatum des ursprünglichen Kunstwerks | fileinfotpl_date |
hCalendar vevent.dtstart | Mikroformat, eingefügt von der Vorlage {{Date}} |
{{Artwork}} | source | Dateiquelle | fileinfotpl_src |
||
{{Artwork}} | artist | Urheber des Kunstwerks | fileinfotpl_aut |
"hProduct.fn value" | |
{{Artwork}} | author | Urheber des Kunstwerks | fileinfotpl_aut |
"hProduct.fn value" | |
{{Artwork}} | permission | Genehmigung und Lizenz für die Datei und das Kunstwerk | fileinfotpl_perm |
||
{{Artwork}} | other versions | Andere Versionen der Datei | fileinfotpl_ver |
||
{{Artwork}} | title | Titel des Kunstwerks | fileinfotpl_art_title |
hProduct.fn | |
{{Artwork}} | object type | Art des Kunstwerks | fileinfotpl_art_object_type |
||
{{Artwork}} | medium | Technik oder/und Medium, welche zur Erstellung des Kunstwerkes dienten | fileinfotpl_art_medium |
||
{{Artwork}} | dimensions | Abmessungen/Maße des Kunstwerks | fileinfotpl_art_dimensions |
||
{{Artwork}} | gallery | Einrichtung, in deren Besitz sich das Kunstwerk befindet | fileinfotpl_art_gallery |
||
{{Artwork}} | location | Ort des Kunstwerks innerhalb dieser Einrichtung | fileinfotpl_art_location |
hProduct.locality | |
{{Artwork}} | accession number | Inventarnummer (accession number) für das Kunstwerk | fileinfotpl_art_id |
hProduct.identifier | |
{{Artwork}} | object history | Provenienz (Besitzerhistorie) des Kunstwerks | fileinfotpl_art_object_history |
||
{{Artwork}} | exhibition history | Ausstellungsgeschichte des Kunstwerks | fileinfotpl_art_exhibition_history |
||
{{Artwork}} | credit line | Anerkennungs Text des Kunstwerks | fileinfotpl_art_credit_line |
||
{{Artwork}} | inscriptions | Inschriften des Kunstwerks | fileinfotpl_art_inscriptions |
||
{{Artwork}} | notes | Hinweise über das Kunstwerk | fileinfotpl_art_notes |
||
{{Artwork}} | references | Verweise auf das Kunstwerk | fileinfotpl_art_references |
||
{{Book}} | Author | Urheber des Buches | fileinfotpl_author |
||
{{Book}} | Editor | Herausgeber des Buches | fileinfotpl_book_editor |
||
{{Book}} | Translator | Übersetzer des Buches | fileinfotpl_book_translator |
||
{{Book}} | Illustrator | Illustrator des Buches | fileinfotpl_book_illustrator |
||
{{Book}} | Title | Titel des Buches | fileinfotpl_book_title |
||
{{Book}} | Subtitle | Untertitel des Buches | fileinfotpl_book_subtitle |
||
{{Book}} | Series title | Serien-Titel des Buches | fileinfotpl_book_series-title |
||
{{Book}} | Authority file | Normdaten (ISBN, LCCN, OCLC, BNF) | fileinfotpl_book_authority |
||
{{Book}} | Publisher | Herausgeber/Verlag des Buches | fileinfotpl_book_publisher |
||
{{Book}} | Printer | Duckhaus | fileinfotpl_book_printer |
||
{{Book}} | Year of publication | Datum oder Jahr der Veröffentlichung des Buches | fileinfotpl_date |
||
{{Book}} | Place of publication | Ort (oder Stadt), an dem das Buch veröffentlicht wurde | fileinfotpl_book_place-of-publication |
||
{{Book}} | Language | Sprache des Buches | fileinfotpl_book_language |
||
{{Book}} | Description | Beschreibung des Buches | fileinfotpl_desc |
||
{{Creator}} | Name | Name des Urhebers | creator |
vCard.fn | |
{{Creator}} | Alternative names | Alternative Namen des Urhebers | fileinfotpl_creator_alt-name_value |
vCard.nickname | |
{{Creator}} | Description | Staatsangehörigkeit und Beruf des Urhebers | fileinfotpl_creator_desc_value |
vCard.note | |
{{Creator}} | Date of death | Sterbedatum des Urhebers | fileinfotpl_creator_deathdate_value |
||
{{Creator}} | Date of birth | Geburtsdatum des Urhberbers | fileinfotpl_creator_birthdate_value |
vCard.bday | |
{{Creator}} | Location of birth/death | Sterbeort des Urhebers | fileinfotpl_creator_deathloc_value |
||
{{Creator}} | Location of birth | Geburtsort des Urhebers | fileinfotpl_creator_birthloc_value |
||
{{Creator}} | Work period | Schaffensperiode des Urhebers | fileinfotpl_creator_work-period_value |
||
{{Creator}} | Work location | Aufenthaltsort während der Schaffensperiode | fileinfotpl_creator_work-location_valuev |
||
{{Creator}} | Image | Portrait oder Photo, das den Urheber zeigt | fileinfotpl_creator_image |
||
{{Creator}} | Authority file | Normdaten des Urhebers (VIAF, LCCN, GND,...) | fileinfotpl_creator_authority_value |
| |
{{FileContentsByBot}} | (verschiedene) | ist abhängig, siehe {{FileContentsByBot}} | (various) |
hproduct-by-bot | große, weiterhin wachsende Datenmenge, siehe {{FileContentsByBot}} |
{{Photograph}} | title | Titel des Fotos | fileinfotpl_art_title |
hProduct.fn | |
{{Photograph}} | description | Beschreibung des Fotos | fileinfotpl_desc |
hProduct.description | |
{{Photograph}} | original description | Original-Archivbeschreibung des Fotos | fileinfotpl_desc |
hProduct.description | |
{{Photograph}} | date | Erstellungsdatum des ursprünglichen Kunstwerks | fileinfotpl_date |
hCalendar vevent.dtstart | Mikroformat eingefügt von {{Date}} |
{{Photograph}} | medium | Technik oder Medium der Fotografie | fileinfotpl_art_medium |
||
{{Photograph}} | dimensions | Abmessungen/Maße des Fotos | fileinfotpl_art_dimensions |
||
{{Photograph}} | artist | Urheber des Fotos | fileinfotpl_aut |
"hProduct.fn value" | |
{{Photograph}} | institution | Einrichtung, in deren Besitz sich das Kunstwerk befindet | fileinfotpl_art_gallery |
||
{{Photograph}} | location | Ort des Fotos innerhalb dieser Einrichtung | fileinfotpl_art_location |
hProduct.locality | |
{{Photograph}} | source | Dateiquelle | fileinfotpl_src |
||
{{Photograph}} | permission | Genehmigung und Lizenz für die Datei und das Kunstwerk | fileinfotpl_perm |
||
{{Photograph}} | other versions | Andere Versionen der Datei | fileinfotpl_ver |
||
{{Photograph}} | accession number | Inventarnummer (accession number) des Fotos | hProduct.identifier |
Alternatives Format für CommonsMetadata
Because the table + id based format proved very hard to add to templates which were not formatted similarly to the Commons information template, CommonsMetadata allows an alternative format, similar to license templates: the whole information template has to be enclosed in a fileinfotpl
class and the tag containing the specific information needs to have a fileinfotpl_*
class (same names as above, but class, not id).
Maschinenlesbare Daten aus Lizenzvorlagen
Seit Oktober 2010 werden die Klassen <span class="licensetpl_XXX">
verwendet.
licensetpl
- Ein Element, das eine Lizenz identifiziert. Schließt den gesamten Lizenzcode ein und sollte eine SINGLE-Lizenz sein, keine Mehrfachlizenz.
licensetpl_short
- Kurzform der Lizenz: „Public domain”, “CC BY-SA 3.0”, “CC by 2.0 fr”, u.s.w.
licensetpl_long
- Langer Name der Lizenz: „Public domain“, „Creative Commons Attribution-Share Alike 3.0”,
licensetpl_attr_req
- Ist Namensnennung erforderlich?: „true” oder „false”.
licensetpl_attr
- Der Text der Namensnennung: beliebiger Text.
licensetpl_link_req
- Ist ein Link zur Lizenz erforderlich?: „true” oder „false”.
licensetpl_link
- Link zur Lizenz: www.creativecommons.org/licenses/by-sa/XXX/YYY
licensetpl_nonfree
- „true“, wenn es sich nicht um eine freie Lizenz handelt (nicht bei Commons verwendet, nur bei Wikis mit einem EDP)
Mehrere licensetpl
-Blöcke für dasselbe Werk können in einen Block mit der Klasse licensetpl_wrapper
gepackt werde.
Vorlagen, die diese Informationen zur Verfügung stellen
- Folgende Vorlagen verwenden
licensetpl
: {{PD-Layout}}, {{Cc-by-sa-3.0-migrated}}, {{Cc-by-layout}}, {{Cc-by-sa-layout}}, {{Cc-zero}}, {{FAL}}, {{GFDL}}, {{GFDL-1.2}}, {{GPL}} und {{LGPL}}.
Maschinenlesbarer Datensatz durch Stilformatierungsvorlagen
Style formatting templates, meant to provide uniform styles to different families of non-license templates, carry machine readable data identifying these families.
Vorlage | Zweck | Klassenname |
---|---|---|
{{Restriction-Layout}} | used by Restriction tags | restrictiontemplate
|
{{FoP-Layout}} | verwendet von Panoramafreiheits-Vorlagen | foptemplate
|
{{Partnership-Layout}} | verwendet von Kooperations-Vorlagen | partnershiptemplate
|
{{Source-Layout}} | verwendet von Quellen-Vorlagen | sourcetemplate
|
{{Created with}} | verwendet von Erstellt mit …-Vorlagen | createdwithtemplate
|
Machine readable data set by non-copyright restriction templates
Vorlagen für nicht urheberrechtliche Einschränkungen enthalten diese Klassen, um bestimmte Arten von Einschränkungen zu kennzeichnen.
Vorlage(n) | Zweck | Klassenname |
---|---|---|
{{Trademarked}} | Markenrechtlich geschützte Bilder | restriction-trademarked
|
{{Copydesign}} | Urheberrechtlich geschützte Designs | restriction-design
|
{{Communist symbol}} | Kommunistische Symbole | restriction-communist
|
{{Italy-MiBAC-disclaimer}} {{Soprintendenza}} | Italienische Kulturgüter | restriction-ita-mibac
|
{{Australian Commonwealth reserve}} | Australian reserves | restriction-aus-reserve
|
{{Personality rights}} {{Romania personality rights}} | Persönlichkeitsrechte | restriction-personality
|
{{2257}} | Warnung nach dem "Child Protection and Obscenity Enforcement Act" (USA) | restriction-2257
|
{{Costume}} | Kostüme | restriction-costume
|
{{Fan art}} | Fan-Kunst | restriction-fan-art
|
{{Currency}} | Währung | restriction-currency
|
{{IHL Symbol}} | Symbole, die durch das humanitäre Völkerrecht eingeschränkt sind | restriction-ihl
|
{{Nazi symbol}} | Nazi und faschistische Symbole | restriction-nazi
|
{{Insignia}} | Offizielle Insignien | restriction-insignia
|
Maschinenlesbarer Datensatz durch spezifische Vorlagen
More machine-readable data are set. Here is a non-exhaustive list:
- {{Personality rights}}
<span class="commons-template-name" style="display:none" id="commons-template-personality-rights">Personality rights</span>
- {{Credit line}}
<td id="fileinfotpl_credit" class="fileinfo-paramfield fileinfotpl_credit" style=""></td>
Machine-readable data set by location templates
{{Location}} and similar templates add machine-readable geocodes in the following format: <span class="geo">12.34;24.68</span>
(latitude and longitude as floating-point numbers, separated by a semicolon). The coordinates use the en:WGS84 system (same as the GPS and most online maps). See Commons:Geocoding for more details.
Benutzung
MediaWiki API
Die MediaWiki-API gibt nun auch eine kleine Anzahl von Metadaten heraus: Betrachte folgende Anfrage:
(Im API-Sandkasten öffnen) welche einige nützliche Paramter, wie Credit, Artist, LicenseUrl und Copyrighted zurückgibt und die z.B. durch den Media Viewer benutzt werden.
Scripte, die Maschinenlesbare Daten benutzen
- MediaWiki:Gadget-Stockphoto.js
- MediaWiki:GallerySlideshow.js
- MediaWiki:Gadget-AddInformation.js
- MediaWiki:FileContentsByBot.js
Externe Tools
Siehe auch
- Category:Templates generating microformats
- Commons:WikiProject Microformats
- Category:Files with lack of machine-readability
- Experimentelle, eingestellte Projekte: Commons:API, Commons:Commons API
Festlegung von neuen maschinenlesbaren Daten
- Do NOT use HTML id's, use classes. An ID can only be used once per page and most of these fields can occur multiple times per page. Consider for instance descriptions of derivative works, which can include information about the original and the derivative.
- When possible, wrap the actual data, not some field header. This last method is historically used for all our Information templates, but much harder to support in the long run.
- Wrap data, not the way the data is formatted.
- Expect that formatting is lost when converting to data. Visual dress up is not part of the information.
- Packe nicht mehrere Informationseinheiten in ein Feld ein. Es gibt einen Unterschied zwischen einem Veröffentlichungsdatum und einem Erstellungsdatum. Beides sind Datumsangaben, aber beides sind unterschiedliche Datenfelder. Auch CC BY-SA-4.0-3.0-2.5 ist kein Lizenzname, das wären 3 Lizenzen mit dem Namen CC BY-SA-##.
- Stelle sicher, dass der Datenwert eine Einheit hat oder eine einheitliche Einheit ausgibt.
Probleme
Es gibt ein paar Dinge, die derzeit NICHT oder schlecht erkennbar sind. Dazu gehören:
- Abgeleitete Werke
- Werke, die in Werken enthalten sind. Siehe auch Category:FoP_templates
- Lizenzen für abgeleitete Werke oder in Werken enthaltene Werke sind ein Chaos.
- Urheber vs. Copyright-Inhaber
- Nutzernamen vs. Realnamen
- Katalog-IDs etc.
- VRTS-Berechtigungen
- Veröffentlichungsdatum vs. Erstellungsdatum
- Spendende Institutionen von Materialien
- Alles, was NICHT die oben genannten Strukturen verwendet, ist überhaupt nicht erkennbar und muss irgendwann manuell bereinigt werden.
- Erben: {{Heirs-license}}
- Multilizensierte CC-Werke, die {{Cc-by-3.0,2.5,2.0,1.0}}, {{Cc-by-sa-2.5,2.0,1.0}}, {{Cc-by-sa-4.0,3.0,2.5,2.0,1.0}} oder {{Cc-by-all}} verwenden.
- Nicht lizenzierte Werke: {{Copyrighted free use}}, {{Attribution}} (Problem, wie diese Rechteeinräumung erfolgreich beschrieben werden kann?)
- Improvisierte Dateibeschreibungsvorlagen wie User:Tevaprapas/Information
- Vorlagen, die das Urheberrecht von Teilen des Werkes angeben: {{Copyright information}}