Pe măsură ce companiile implementează soluții de automatizare pentru a-și digitaliza fluxurile de lucru și procesele, există multe cazuri în care datele structurate și nestructurate din documente trebuie introduse într-un sistem sau utilizate într-un proces. În mod obișnuit, acest lucru se face prin transcriere manuală sau prin utilizarea unui instrument de extracție care depinde de crearea și menținerea unor șabloane de prezentare a documentelor care trasează locația informațiilor cheie. Aceste metode consumă mult timp și necesită zeci de lucrători pentru a fi întreținute.
Să ne oprim un moment pentru a examina o factură și să o deconstruim. Factura va conține de obicei multe elemente diferite, cum ar fi:
- Adrese
- Date
- Numere de comandă
- Grafică
- Tabele
Atunci când privim o factură, putem identifica rapid aceste elemente și putem vedea diverse modele asociate cu fiecare dintre ele. De exemplu, formatul unui bloc “dată” diferă de cel al blocului “adresă”. Aceste elemente trebuie să fie tratate în mod diferit. De exemplu, este necesară o acțiune diferită pentru elementele de tabel față de câmpurile numerice și față de cele grafice.
Această identificare necesită o logică și reguli implicite diferite, astfel încât elementele să poată fi extrase și grupate în mod corespunzător, iar informațiile să fie structurate. Să luăm un exemplu în care o descriere se întinde pe mai multe rânduri sau un caz în care numerele de serie sunt încorporate în coloane. Primul pas este înțelegerea a ceea ce este un obiect pentru a structura și extrage informațiile în mod corespunzător și util.
Aplicând această realizare la facturi cu ajutorul viziunii computerizate, putem localiza și identifica fiecare dintre diferitele elemente. Acest lucru se realizează prin antrenarea unui model de învățare profundă cu mai multe straturi. Fiecare strat al modelului se alimentează în următorul, pe baza caracteristicilor blocului și a conținutului, până când este identificat tipul de bloc. Frumusețea acestei tehnici constă în faptul că poziția blocurilor este irelevantă și poate fi mutată și plasată oriunde pe un document.
Alte soluții, în special cele care se bazează pe hărțile de coordonate ale documentelor, pot compensa ușoarele modificări ale poziției unui obiect datorate deplasărilor și înclinațiilor de scanare. Dar, odată ce un furnizor actualizează o machetă pentru a avea un aspect mai modern și mută locațiile câmpurilor, aceste hărți sunt imediat depășite și trebuie refăcute. Deoarece clienții pot avea sute sau mii de furnizori, amploarea întreținerii acestor hărți de documente este semnificativă.
Viziunea computerizată rezolvă această problemă. Odată ce un model de viziune computerizată este antrenat în mod adecvat pe un element, acel element poate fi localizat oriunde pe pagină. Modelul continuă să funcționeze pe diferite tipuri de documente, deoarece nu este legat de nicio machetă.
Următoarea provocare după identificarea elementelor este extragerea valorilor reale ale datelor. Să folosim un câmp comun de factură – data facturii – pentru a explica provocările. Atunci când câmpul de dată este transmis unui motor OCR de bază, primim rezultate de bază de extracție a caracterelor optice și scoruri de probabilitate pentru ieșire. Deoarece blocul de elemente este un câmp “dată”, diversele combinații de rezultate returnate pot fi apoi trimise într-un model de inteligență artificială care determină rezultatul final.
Există un număr finit de metode de construire a unui câmp de dată și care este subsetul de caractere alfanumerice valide. Prin antrenarea modelului, aceste informații sunt “învățate” și pot determina cu un grad ridicat de precizie opțiunile valide.
Angajarea unui model de învățare automată (ML) pentru a efectua acest tip de analiză este mai adecvată decât utilizarea unei serii de reguli simple sau aplicarea unor modele regex și a unor verificări de validare. Dacă am folosi reguli și modele pentru a construi capacități similare, ar putea exista cu ușurință sute de verificări pentru a asigura o acoperire adecvată a convențiilor americane privind datele.
Atunci când extindem setul de probleme pentru a include limbi, țări și convenții suplimentare, numărul de reguli și modele devine rapid destul de mare. Acest lucru face ca tehnica de utilizare a acestora să fie puțin potrivită pentru abordarea problemei. În schimb, prin utilizarea IA, tot ceea ce este necesar pentru a susține alte limbi și țări ar fi să se mențină modelul cu mai multe eșantioane suplimentare din acele limbi și țări.
Atunci când se ia în considerare formarea unui model de inteligență artificială, cu cât setul de date este mai mare și mai cuprinzător, cu atât rezultatele vor fi de obicei mai bune. Această muncă este de obicei foarte tehnică și detaliată și ar necesita un cercetător sau un analist de date pentru a se asigura că setul de date este precis, imparțial, echilibrat și etichetat corect.