Gallica : recherche d'illustrations

GallicaPix v1.4
Nouveautés de la version 3 : grapheur  (jeu de données, liste de résultats); exportation des résultats d'une requête (format JSON) ; exportation des annotations (format IIIF) ; indexation des couleurs ; indexation des illustrations (métadonnées technique/fonction/genre).
Nouveautés de la version 4 : exportation de collections IIIF
Fonctionne mieux avec un navigateur web récent. Testé sur Chrome v67-v87 et Firefox v61-v84 GallicaPix v1.3
New in version 3: plotter  (dataset, results list); export query results as JSON; export annotations as IIIF format; color indexing; illustrations indexing (technique/function/genre metadata)
New in version 4: IIIF collections export
Works better on a modern web navigator. Tested on Chrome v67-v87 and Firefox v61-v84

14-18
Sources : Gallica (BnF), Wellcome Collection
Pages indexées Indexed pages : 475k Illustrations : 222 290 Illustrations : 222.290 Publicités : 65 688 Illustrated ads : 65.688
Période Time period : 1910-1920
Presse Newspapers : Le Gaulois, Le Journal des débats politiques et littéraires, Le Matin, Ouest-Eclair (Rennes), Le Petit Journal illustré, Le Petit Parisien, L'Humanité, L'Excelsior, La Guerre Mondiale... Revues Journals : La Guerre aerienne, Cahier de la Guerre, Miroir, Pages de gloire, La Science et la Vie... Monographies : portfolios, journaux de régiments, etc. portfolios, regiments diaries, etc. Images : estampes, photos, affiches, dessins, etc. engravings, photos, posters, drawings, etc.

Le Miroir des sports (1920-1939)
Sources : Gallica (BnF)
Illustrations : 53 005
Papiers-peints et textiles Wallpapers and textiles
Sources : Gallica (BnF), The National Archives
Illustrations : 3 753 Illustrations: 3.753
Vogue (1920-1940)
Sources : Gallica (BnF)
Illustrations : 42 400 (publicités : 12 960 ) Illustrations: 42.400 (ads: 12.960)
Zoologie Zoology
Sources : Gallica (BnF)
Illustrations : 8 762 Illustrations: 8.762

La recherche sur le critère "mot clé" est tokenisée (découpage en mots ; casse, accents et ponctuation supprimés). Avec la recherche avancée, il est possible de préciser plusieurs mots-clés en les séparant par une virgule et en les combinant avec un opérateur :
- au moins un mot (OU logique) : "verdun,vaux,douaumont"
- tous les mots (ET logique) : "fort,vaux"
- tous proches (distance de 20 mots, sans ordre) : "bataille,Verdun"
- tous proches et ordonnés (distance de 20 mots avec ordre)
- phrase exacte (séquence de mots): "fort de Vaux"

Des jokers peuvent être utilisés :
. : tout caractère. Exemple : "199."
.? : zéro ou un caractère. Exemple : "élève.?"
.* : zéro ou plusieurs caractères. Exemple : "paris.*"
.+ : un ou plusieurs caractères.Exemple : "diplomat.+"

Une dernière option est la recherche floue, qui peut compenser les erreurs OCR. Search on the "keywords" criteria is tokenised (division into words, removal of case, accents and punctuation). It is possible to specify several keywords by separating them with a comma and combining with an operator:
- any (logical OR) : "verdun,vaux,douaumont"
- all (logical AND) : "fort,vaux"
- all closed (window of 20 words, no order) : "bataille,Verdun"
- all closed and ordered (window of 20 words, ordered)
- sentence (exacte wording): "fort de Vaux"

Wildcards can be used:
. : any character
.? : zero or one character
.* : zero or more characters. Exemple : "diplomat.*"
.+ : one or more characters

One last option is the fuzzy search, which partly compensates for OCR errors

Collections Gallica source des illustrations : presse, revue, monographie, manuscrits, image, carte, partition musicale
Titre : titre de périodique ou titre de l'oeuvre. Exemples :
- régiment
- Gaulois | Matin (recherche dans plusieurs titres)
- guerre.*aérienne (jokers)
De/à : date de publication au format jj/mm/aaaa
Thème : classification IPTC (cette métadonnée ne couvre pas toute la base)
Supplément (pour les périodiques uniquement) : restreindre aux suppléments
En une/Dernière (pour les périodiques uniquement) : restreindre au première ou dernière pages
Gallica source collections of the illustrations: newspapers, journals, monographies, manuscripts, images, maps, musical scores
Title: work title or newspaper title. Examples:
régiment
Gaulois | Matin (searching in multiple titles)
guerre.*aérienne (wildcards)
From/To: publication date (jj/mm/aaaa)
Theme: IPTC classification (this metadata doesn't cover all the database)
Supplement (for serials only): search only in supplements
Front page/Last page (for serials only): search only in front/last pages

Titre Title Auteur Author Editeur Publisher

En une Front page Dernière page Last page Supplément Supplement
Publicité illustrée Illustred ads

Ces critères interrogent le contenu des images.

Technique de l'illustration : dessin, estampe, photo, etc.
Fonction et genre documentaire de l'illustration : affiche, carte, portrait, etc.
Personne, Concepts : concepts produits par reconnaissance visuelle. Les résultats d'indexation de plusieurs services sont interrogeables (IBM Watson Visual Recognition, Google Cloud Vision, OpenCV/dnn, Yolo). Le mode 'md' interroge les seules métadonnées bibliographiques.
Le premier champ Concept propose une liste de concepts prédéfinis liés au corpus étudié. Ces concepts (par ex. Bateau) opérent avec des synonymes afin d'étendre la requête (vaisseau, croiseur...).
Un service unique peut être choisi avec le critère Mode et dans ce cas, son vocabulaire est listé dans le second champ Concept. Le choix * permet d'interroger tous les modèles d'indexation.
L'opérateur logique ET/OU permet de combiner les champs concepts ainsi que les autres critères du formulaire.
Mode colorimétrique de l'illustration : noir et blanc, monochrome (sépia, cyanotype...), couleur
Couleur dominante de l'illustration : les couleurs (bleu, rouge, vert...) sont issues de la reconnaissance visuelle (toutes sources confondues)
Taille (de la plus petite illustration à la plus grande) : filtrer les illustrations de plus petite taille que le critère
Densité (pour les imprimés uniquement, nombre d'illustrations par page) : filtrer les pages de plus petite densité d'illustration que le critère
These criteria query the images content.

Illustration's technique : drawing, print, photo, etc.
Illustration's function and genre : poster, map, portrait, etc.
Person, concepts : concepts of automatic classification by visual recognition (CBIR). Several sources are available (IBM Watson Visual Recognition, Google Cloud Vision, OpenCV/dnn, Yolo).
The first Concept field makes available predefined concepts related to the selected corpora. These concepts (e.g. Boat) use synonyms to extend the search (cruiser, ship...).
A single model can be selected with the Mode criteria and then its vocabulary is listed in the second Concept field.
Logical operator AND/OR combins the concepts criterias with the other criteria.
Color : grayscale, monochrome (sepia, cyanotype...), color
The color classes (blue, red, green...) are derived from the visual recognition classification
Size (from the smallest illustration to the largest): filter the illustrations which are smaller than the criteria
Density (for printed contents only, number of illustrations in a page, from 1 to 25): filter the pages which have a smaller density than the criteria

Illustration

Technique Fonction Function Genre