V sociálnych vedách pribúda najviac vymyslených citácií, ukazuje audit 2,5 milióna prác

Vedecká literatúra má nový problém, ktorý sa nedá prehliadnuť: v článkoch a preprintoch pribúdajú citácie na práce, ktoré vôbec neexistujú. Najnovšia analýza naznačuje, že len v roku 2025 sa v štyroch veľkých výskumných repozitároch objavilo 146 932 takýchto „halucinovaných“ citácií.

Hallucinated citations highest in social sciences preprints site.

Zdroj: https://www.nature.com/articles/d41586-026-01545-1

Štúdia prešla 2,5 milióna článkov a preprintov a kontrolovala 111 miliónov referencií v repozitároch arXiv, bioRxiv, Social Science Research Network (SSRN) a PubMed Central. Najvyšší podiel falošných citácií našla v SSRN, kde sa podľa autorov týkali takmer 2 % citácií. To je výrazne viac než v ostatných sledovaných databázach. Analýza bola zverejnená na arXive a zatiaľ neprešla recenzným konaním.

Pre vedcov je to dôležité najmä preto, že citácie sú základom dôveryhodnosti výskumu. Ak sa v texte objaví odkaz na neexistujúcu štúdiu, môže to skresliť prehľad literatúry, sťažiť overovanie tvrdení a v krajnom prípade aj preniesť chyby do ďalších prác. V ére veľkých jazykových modelov je navyše ťažšie rozlíšiť, či ide o bežnú bibliografickú chybu, alebo o text vytvorený či upravený systémom, ktorý si zdroj jednoducho vymyslel.

Autori štúdie sa k problému dostali aj cez vlastnú skúsenosť: narazili na odkazy na neznáme práce, ktoré mali byť údajne napísané výskumníkmi, ktorých poznali. Aby odhadli rozsah javu, vytiahli názvy referencií z miliónov rukopisov a porovnávali ich s databázami Semantic Scholar, OpenAlex a Google Scholar. Za nezhodné označili tie odkazy, ktoré sa nedali nájsť a ktoré veľký jazykový model vyhodnotil ako zamýšľané akademické zdroje. Keďže chybné citácie existovali vždy, do výpočtu zaradili len materiály publikované po roku 2022, teda po spustení ChatGPT, prvého verejne dostupného veľkého jazykového modelu.

Prečo sa problém sústreďuje v niektorých odboroch

Výsledky ukazujú, že výskyt vymyslených citácií nie je rovnaký vo všetkých oblastiach.

A magnifying glass resting on a plain surface amongst numerous crumpled paper balls.

Snímka zobrazuje: Analyses of research repositories are estimating the rates of hallucinated citations in research papers. Credit: patpitchaya/iStock via Getty.

Zdroj: https://www.nature.com/articles/d41586-026-01545-1

SSRN, ktorý sa zameriava na spoločenské vedy, mal podľa analýzy najvyšší podiel. ArXiv, kde dominujú fyzikálne a technické odbory, skončil druhý s výrazne nižším podielom. Ešte nižšie hodnoty zaznamenali PubMed Central a bioRxiv.

To naznačuje, že riziko sa môže líšiť podľa disciplíny, pracovných návykov aj spôsobu, akým sa v jednotlivých komunitách používajú preprinty a nástroje umelej inteligencie. Všeobecne platí, že tam, kde je veľký tlak na rýchle publikovanie a rozsiahle literárne rešerše, sa môžu chyby v referenciách šíriť ľahšie.

Ako sa takéto citácie hľadajú

V praxi ide o kombináciu databázového párovania a automatickej kontroly. Najprv sa z textu vytiahnu názvy referencií, potom sa porovnávajú s existujúcimi záznamami v akademických databázach. Ak sa záznam nenájde, ešte to samo osebe neznamená, že ide o vymyslenú citáciu. Môže ísť aj o preklep, neúplný údaj alebo rozdiel v zápise mena či názvu časopisu.

Preto je dôležité, že autori v tomto prípade použili aj jazykový model, ktorý mal odhadnúť, či referencia vyzerá ako zamýšľaný vedecký zdroj. Aj tak však ide o odhad, nie o absolútny dôkaz. Pri takomto type analýzy zostáva časť neistoty vždy prítomná.

Prečo na tom záleží aj mimo akademickej komunity

Citácie nie sú len formálny doplnok článku. Sú mapou toho, na čom výskum stojí. Ak sa do tejto mapy dostanú neexistujúce položky, komplikuje to prácu editorom, recenzentom aj čitateľom, ktorí si chcú tvrdenia overiť.

V širšom zmysle je to aj otázka dôvery v vedecký proces. Umelá inteligencia vie pomôcť pri rešerši, písaní aj sumarizácii, no zároveň môže vytvárať presvedčivo znejúce, ale nepravdivé odkazy. Vedecké časopisy a databázy preto čoraz viac riešia, ako podobné chyby zachytávať skôr, než sa stanú súčasťou citovanej literatúry.

Čo znamená vyšší podiel u menej skúsených autorov

Štúdia tiež naznačuje, že vymyslené citácie sa častejšie objavujú v prácach autorov s malou alebo žiadnou publikačnou históriou pred rokom 2022. To môže súvisieť s tým, že novší autori sa viac spoliehajú na automatizované nástroje, alebo jednoducho nemajú takú skúsenosť s overovaním bibliografie.

Zaujímavý je aj ďalší zistený vzorec: falošné citácie častejšie pripisujú zásluhy už etablovaným, často vysoko citovaným a často mužským autorom. Aj to ukazuje, že problém nie je len technický. Dotýka sa aj toho, ako sa v akademickom prostredí rozdeľuje viditeľnosť a uznanie.

Čo zostáva otvorené

Keďže analýza zatiaľ neprešla recenzným konaním, jej závery treba brať ako veľmi silný, ale stále predbežný odhad. Otvorené zostáva najmä to, ako presne sa bude problém vyvíjať v ďalších rokoch a či sa podarí znížiť počet chybných citácií lepšími kontrolnými nástrojmi.

Isté je aspoň to, že ide o jav, ktorý už nemožno považovať za okrajový. Ak sa v roku 2025 v štyroch veľkých repozitároch našlo vyše 140-tisíc falošných citácií, vedecké prostredie bude musieť riešiť nielen to, ako ich odhaľovať, ale aj to, ako zabrániť tomu, aby sa vôbec dostali do textov.


Zdroj: Nature News

Pôvodný článok: https://www.nature.com/articles/d41586-026-01545-1


Môže sa Vám ešte páčiť...

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *