Tekoäly menneisyyden tulkkina: renki, ei isäntä

30.04.2026

Tekoälyn käyttö historiantutkimuksessa etenee harppauksin. Automaattinen tekstintunnistus avaa vanhat käsialat ja asiakirjat yhä laajemmalle yleisölle ilman syvällistä vanhojen käsialojen opiskelua. Samalla digitaaliset aineistot muuttuvat hakukelpoisiksi: voimme etsiä lähteistä kokotekstihaulla suoraan paikannimiä, henkilöitä tai vaikkapa rikosnimikkeitä.

Tekoäly on siis kovaa vauhtia muuttamassa lähteiden käyttöä ja perinteistä tutkimusprosessia – ainakin niiltä osin kun voimme hyödyntää digitaalisia aineistoja. Samalla tutkija joutuu kuitenkin uudenlaisten kysymysten ja pohdintojen eteen. Millä tavalla tekoälyn käytöstä pitäisi raportoida tutkimuksessa, millä tavalla tekoälyyn voi luottaa ja miten laajasti sen tulokset tulisi verifioida ennen niihin luottamista? Tekoäly voidaan karkeasti jakaa kahteen tyyppiin: suppeaan ja laajaan. Suppea tekoäly on yleensä tiettyyn tehtävään kehitetty malli. Hyvänä esimerkkinä on Kansallisarkistossa kehitetty käsialamalli, joka on opetettu lukemaan suomalaisia aineistoja aikaväliltä 1600–1950. Suppea tekoäly ei tee muuta kuin mihin se on koulutettu, se ei esimerkiksi keksi runoja tai ehdota kummilapselle syntymäpäivälahjoja. Laajalla tekoälyllä viitataan usein laajoihin kielimalleihin (Large Language Models, LLM), joista tunnetuimpia ovat mm. ChatGPT, Gemini ja Claude. Ne ovat monitoimityökaluja, jotka osaavat kääntää kieltä, suunnitella lomamatkoja tai tuottaa teksteistä tiivistelmiä. Kielimallien suurin haaste on hallusinointi: kielimalli saattaa keksiä vakuuttavan tuntuisia mutta täysin tuulesta temmattuja vastauksia. Käyttäjän onkin aina tiedettävä tarpeeksi aiheesta voidakseen arvioida vastauksen oikeellisuutta. Nykyaikaiset kielimallit, kuten Google Gemini, ovat jo yllättävän päteviä sukututkijan apulaisia. Ne eivät ainoastaan tunnista tekstiä, vaan ymmärtävät myös asiakirjan kontekstia. Olen itse kokeillut viime aikoina Googlen Gemini kielimallia erilaisten Kansallisarkiston digitoimien asiakirjojen tunnistukseen. Esimerkiksi Sääksmäen voutikunnan tilikirjan tekstintunnistuksen lisäksi Gemini osasi pyydettäessä muuntaa vanhat mittayksiköt nykyisiksi, selittää Kustaa Vaasan verouudistusten taustoja ja kertoa voutikunnan erityispiirteistä. On kuitenkin muistettava, että vastuu tulosten oikeellisuudesta jää aina tutkijalle. Yhtenä ongelmana voi pitää sitä, että generatiivisen tekoälyn ratkaisut ovat yhdysvaltalaisten ja niiden kouluttamisessa on käytetty ennen muuta englanninkielistä aineistoa ja anglosaksisen kulttuuripiirin aineistoa.

Hämeen voutikuntien tilejä, Sääksmäen voutikunnan tilikirja 1548. Kansallisarkisto.

Ruotsin arkistoyhdistys on esimerkiksi esittänyt huolen, että tekoäly, jota ei ole koulutettu ruotsalaisella aineistolla, ei voi ymmärtää riittävällä tavalla ruotsalaista kulttuuria, kieltä, historiaa tai yhteiskuntaelämää. Arkistoyhdistys esittääkin, että Ruotsin arkistoaineistot tulisi kattavasti digitoida ja käyttää ruotsalaisen tekoälyn kouluttamiseen. Ainakin toistaiseksi sukututkija joutuu operoimaan pitkälti yhdysvaltalaisilla kielimalleilla ja nojaamaan omaan asiantuntemukseen ja lähdekritiikkiin tekoälyn tuottamia tuloksia analysoidessa. Voudintilien mittayksiköiden käännökset ja niiden muuttaminen nykyaikaan edellyttää siis edelleen tutkijalta vanhojen käsialojen ymmärtämistä, historiallisia mittayksiköitä ja aikakauden kontekstin tuntemusta. Minkälaista lähdekritiikkiä tarvitsemme tulevaisuudessa? Kansallisarkiston tekoälyn kehittäjät ovat nostaneet esiin, että myös teknologisten ratkaisujen ymmärtäminen on osa tulevaisuuden lähdekriittistä prosessia ja tutkimusmetodologiaa, kun tekoälyn hyödyntäminen tutkimuksessa lisääntyy. Tutkimuksen käytössä olevien työkalujen kehittyessä myös metodien tulee muuttua mukana. Tekoälyn hyödyntämisessä olemme vasta matkan alussa. Vielä viisi vuotta sitten tuntui kaukaiselta ajatukselta, että lukisimme 1600-luvun käsialoja samalla ohjelmalla, jolta pyydämme leivontareseptejä. Onkin kiehtovaa nähdä, millaisia metodologisia kysymyksiä sukututkijat pohtivat kymmenen tai kahdenkymmenen vuoden kuluttua. Kirjoittaja on käyttänyt tekoälyä tämän tekstin viimeistelyssä.

Mikko Eräkaski

Kirjoitus on julkaistu aiemmin Jäsenviesti Jalmarin maaliskuun 2026 numerossa.

Tekoäly menneisyyden tulkkina: renki, ei isäntä

Edistyneet asetukset