De Hirsch factor voor niet-ingewijden

De Hirsch factor is een steeds vaker gebruikte maat voor de impact die een wetenschapper heeft op zijn vakgebied. Het combineert op een bijzondere manier het aantal publicaties van een wetenschapper met het aantal malen dat naar zijn of haar artikelen is verwezen. Het is daardoor niet zozeer een maat voor de productiviteit van een wetenschapper, maar vooral een maat voor zijn of haar kwaliteit. De maat is voor het eerst voorgesteld door J.E. Hirsch in 2005.

Publicaties als product

Een artikel is het belangrijkste product dat een wetenschapper kan opleveren. Zelfs wanneer er concrete dingen gemaakt worden, zoals een robot, een nieuw medicijn een computerprogramma of een beleidsmaatregel, dan nog telt het pas mee als het beschreven is een artikel. Niet elke tekst geldt als een artikel. Een tekst is pas een wetenschappelijk artikel als het goed genoeg is bevonden door een aantal collega-wetenschappers - een beoordelingsproces dat peer review heet - en als gevolg daarvan in een erkend wetenschappelijk tijdschrift opgenomen is. De eisen aan wat als een wetenschappelijk artikel mag gelden, zijn dus behoorlijk streng.

Wanneer deze horde genomen is mag een wetenschapper het artikel aan zijn publicatielijst toevoegen. De lengte van de publicatielijst op zich is een maat voor de productiviteit van de wetenschapper. Het mag als een prestatie gelden dat een artikel überhaupt gepubliceerd wordt en als deze prestatie systematisch herhaald wordt, dan verhoogt dat de status van de auteur of auteurs. Veel artikelen schrijven is een noodzakelijke voorwaarde om een vakgebied te kunnen beïnvloeden. Maar echte invloed ontstaat pas als de artikelen ook gelezen worden en de resultaten die beschreven zijn ook daadwerkelijk gebruikt worden. Het beste bewijs dat een artikel gelezen en gebruikt is, is wanneer een artikel in de literatuurlijst van een ander artikel is opgenomen.

Gelukkig zijn de wetenschappelijke mores zo dat vrijwel elk artikel een literatuurlijst heeft. Er verschijnt tegenwoordig nauwelijks meer een artikel zonder literatuurlijst. Wanneer dat toch gebeurt mag de auteur rekenen op een fikse portie achterdocht. Het is op voorhand bijzonder ongeloofwaardig dat iemand iets helemaal op eigen houtje bedenkt.

Dankzij de literatuurlijst kan een citatie-score voor elk artikel bepaald worden. Wanneer in de literatuurlijst van artikel X verwezen wordt naar artikel Y, dan wordt het aantal verwijzingen naar artikel Y met 1 vergroot. Op deze manier kan, in principe dan, van elk artikel bepaald worden hoevaak er naar verwezen is. Dat aantal wordt wel de citatie-score van een artikel genoemd.

Registreren en meten

Omdat de bepaling van de impact van artikelen en van auteurs tegenwoordig zeer belangrijk wordt gevonden, zijn er omvangrijke databases ingericht waarin zoveel mogelijk wetenschappelijke artikelen geregistreerd worden en waarin ook de onderlinge verwijzingen zijn opgenomen. Het beheer van zulke databases is vaak in handen van de uitgevers van wetenschappelijke tijdschriften. Dat hoeft geen verbazing te wekken. Voor uitgevers is het van groot belang te weten, en te laten weten, hoe goed de artikelen in hun tijdschriften zijn. Het bestaan van zulke databases heeft zelfs geleid tot een nieuwe wetenschap - soms scientometrics, soms bibliometrics genoemd - waarin het onderzoek naar het publicatiegedrag van wetenschappers centraal staat. Er zijn talloze formules en algoritmes voorgesteld voor het meten van het belang of de kwaliteit van artikelen. Wellicht het meest bekend zijn de zogenaamde impact-factoren waarmee de invloed van artikelen en tijdschriften op een vakgebied wordt bepaald. De verschillende impact-factoren gaan op verschillende manieren om met zulke problemen als artikelen die geschreven zijn door meerdere auteurs, met verschillende publicatie-gewoontes in de verschillende disciplines, het aantal wetenschappers per discipline en ga zo maar door.

Wetenschappers zelf zijn in de regel nogal sceptisch over dergelijke maten, maar ze worden met grote gretigheid gebruikt door managers van wetenschappelijke instellingen en beleidsmakers die, meestal van overheidswege, de taak hebben om richting te geven aan het wetenschappelijk bedrijf. De impact-factoren bieden in elk geval een, in principe, objectieve maat voor de kwaliteit van wetenschappelijke artikelen. En daarmee ook van de auteurs, want wie veel artikelen publiceert met een hoge impact-factor moet wel een goede onderzoeker zijn. Zulke maten hebben dus ook een grote invloed op de carrièrekansen van een wetenschapper in spe.

Kwaliteit van auteurs

Juist omdat de persoonlijke consequenties van de impact-factoren zo groot kunnen zijn, hebben verschillende mensen geprobeerd om te komen tot een meer rechtstreekse maat voor de kwaliteit van auteurs. Het aantal publicaties is een zo'n maat en de gemiddelde impact-factor van de gepubliceerde artikelen is een andere. Maar deze maten hebben ernstige nadelen. Het aantal publicaties meet eerder de productiviteit dan de kwaliteit en de gemiddelde impact-factor zal groter zijn voor een auteur die eens in de tien jaar een heel goed artikel schrijft dan voor auteurs die elk jaar een redelijk goed artikel schrijft. Dat wordt in het moderne wetenschappelijk bedrijf niet wenselijk gevonden.

In de queeste naar betere maten voor de kwaliteit van auteurs scoort de Hirsch Factor hoge ogen. Het heeft minder nadelen dan veel van die andere maten. Dat wil overigens niet zeggen dat er geen nadelen aan verbonden zijn. Maar nu eerst de toch ietwat verrassende definitie zelf.

Als een auteur N artikelen gepubliceerd heeft dan is de Hirsch-factor het getal h waarvoor geldt dat precies h artikelen een citatie-score van h of meer hebben. In dat geval hebben dus N - h artikelen een citatie-score lager dan h.

Kortom: iemand met een Hirsch factor van 11 heeft in zijn leven 11 artikelen gepubliceerd die 11 of meer keer geciteerd zijn. Een voorbeeld moge dit wat verduidelijken. Stel, er is een wetenschappelijke auteur die precies 100 publicaties op zijn naam heeft staan. We hebben dus N = 100. In de relevante databases vinden we dat 66 van deze artikelen nooit door iemand anders zijn gebruikt, dat wil zeggen, het komt op geen enkele literatuurlijst voor. Als u dit wat zielig vindt, bedenk dan dat zeer veel wetenschappelijke publicaties nooit of vrijwel nooit geciteerd worden. In elk geval is onze auteur 66 maal in staat geweest om de publicatie-drempel te overschrijden. Dat is tenminste iets.

Van de resterende 34 zijn er, in dit voorbeeld, 24 precies eenmaal geciteerd. Het aantal verwijzingen die de andere tien artikelen hebben ontvangen staan in de volgende tabel, waarbij we de artikelen simpelweg met een letter hebben aangeduid.

Artikel	Ontvangen verwijzingen
A	100
B	50
C	7
D	7
E	6
F	4
G	3
H	3
I	2
J	2

De Hirsch-factor van deze auteur is 5. We hebben dus h = 5. Waarom? Er zijn precies 5 artikelen die 5 of meer verwijzingen hebben ontvangen. De Hirsch-factor is niet 6, want er zijn 5 artikelen die 6 of meer verwijzingen hebben ontvangen. De Hirsch-factor is niet 4 want er zijn 6 artikelen met 4 of meer verwijzingen.

Vergelijking met andere maten

Als gezegd, de definitie van de Hirsch-factor is wat merkwaardig en lijkt zonder al te veel rechtvaardiging uit een of andere grote hoed getoverd te zijn. Dat het wel degelijk om een doordachte constructie gaat, blijkt vooral als we het vergelijken met een aantal andere meer voor de hand liggende maten.

Het aantal publicaties
Hierboven hebben we al kort verwezen naar wat wellicht de meest voor de hand liggende maat voor de impact van een auteur is: het aantal publicaties. Het probleem hiervan is dat het weliswaar een uitstekende maat is voor de productiviteit van de auteur, maar dat het volledig voorbij gaat aan de vraag of andere wetenschappers iets kunnen (of willen) met de werken van een auteur. De Hirsch-factor neemt tenminste het gebruik van de artikelen mee in de definitie.

Totaal aantal citaties
Het totaal aantal citaties is ook al een zeer voor de hand liggende manier om de impact van een auteur te bepalen. De problemen met deze maat zijn wat technisch en subtiel. Ten eerste, hoe omvangrijk de databases ook zijn waarin alle wetenschappelijke resultaten gepubliceerd zijn, compleet zijn ze nooit. Als dus een tijdschrift ontbreekt dat juist vaak naar het werk van een bepaalde auteur verwijst, dan worden veel citaties gemist. Dit probleem speelt uiteraard ook bij de Hirsch-factor, maar de invloed ervan is veel kleiner. Hoogstens zal de Hirsch-factor een of twee punten stijgen of dalen in zo'n geval, terwijl het totaal aantal citaties er juist stevig door beïnvloed kan worden.

Een tweede bezwaar is dat wanneer een auteur in zijn leven een artikel heeft geschreven dat veel citaties ontvangt terwijl de rest zelden of nooit wordt geciteerd, het totaal aantal citaties nog best forst kan zijn. Deze maat leidt dus tot een overwaardering van "big hits". Een auteur die zijn leven lang artikelen schrijft met een redelijk aantal citaties wordt dus minder gewaardeerd dan een auteur die, al dan niet toevallig, een keer flink raak heeft geschoten.

Er is nog een derde bezwaar. In veel wetenschappen is het gebruikelijk om review artikelen te schrijven waarin, bijvoorbeeld, de vooruitgang in een jaar gedocumenteerd wordt. Zulke artikelen zijn belangrijk en zullen veel verwijzingen krijgen, maar het is geen origineel onderzoek. Het aantal verwijzingen correspondeert in dit geval niet met en vooruitgang in de wetenschap.

Duidelijk is dat al deze bezwaren ook gelden voor de Hirsch-factor, maar in veel mindere mate. De Hirsch-factor negeert grote verschillen in kwantiteit en reduceert ze tot een rangorde. Grote kwantitatieve verschillen leiden slechts tot lichte verandering van de Hirsch-factor.

Citatie-score gedeeld door het aantal publicaties
Het probleem hier is dat een auteur met weinig publicaties al snel een voordeel heeft boven een auteur die veel publiceert. Deze maat bevoordeelt dus de auteurs met een lage productiviteit. De Hirsch-factor is uiteraard veel minder afhankelijk van het aantal publicaties.

Nadelen van de Hirsch-factor

Leeftijd van de auteur
Wanneer we het hebben over de kwaliteit van een wetenschappelijke auteur, dan denken we een aan stabiele eigenschap. Maar de Hirsch-factor is geen constante. Zo is het aantal citaties dat een artikel ontvangt afhankelijk van de ouderdom van de artikelen. Net als met records in de sport, kan dit aantal alleen maar meer worden, nooit minder. Beide factoren maken dat de Hirsch-factor in de loop der tijd zal veranderen en aan oudere auteurs een hogere waarde zal toekennen dan aan jongere. Bij het interpreteren van de Hirsch factor moet dus de (wetenschappelijke) leeftijd in beschouwing genomen worden.

Discipline afhankelijkheid
De Hirsch-factor wordt vooral bepaald door de citatie-scores. In een vakgebied waarin veel mensen werken zullen de citatie-scores in de regel hoger liggen, direct leidend tot een hogere Hirsch-factor. Natuurlijk zullen ook het aantal tijdschriften en het aantal publicaties groter zijn, maar de praktijk leert dat de citatie-scores niet evenredig verdeeld zijn over alle tijdschriften en vooral te vinden zijn bij een paar van de meer bekende tijdschriften.

Conclusie

De Hirsch-factor is een wat merkwaardige maar desondanks goed te rechtvaardigen maat voor de kwaliteit van individuele wetenschappers. Het is niet perfect maar duidelijk beter dan een aantal meer voor de hand liggende maten als aantallen publicaties, citatie-scores en gemiddelde impact-factoren.

Lees verder

Het streven naar Open Access