Biblioteka Narodowa jest partnerem projektu Europeana Newspapers, finansowanego ze środków Komisji Europejskiej w ramach Programu Ramowego na rzecz Konkurencyjności i Innowacji 2007-2013 (CIP-ICT PSP).
Celem projektu, w którym uczestniczy 17 europejskich instytucji - w tym biblioteki narodowe 10 krajów - jest agregacja wysokiej jakości kopii cyfrowych gazet za pośrednictwem The European Library. W ciągu najbliższych trzech lat instytucje biorące udział w projekcie udostępnią za pośrednictwem serwisów internetowych portalu Europeana ponad 18 milionów stron gazet, głównie z pierwszego dwudziestolecia XX wieku, w wersji pełnotekstowej. Projekt zakłada umożliwienie bezpośredniego dostępu do treści gazet za pomocą wyspecjalizowanego interfejsu portalu Europeana, pozwalającego na wyszukiwanie całych fraz lub poszczególnych słów w zdigitalitowanym tekście.
Projekt Europeana Newspapers stanowi odpowiedź na wyzwania związane z digitalizacją prasy i dotyczy przede wszystkim udoskonalenia metod Optycznego Rozpoznawania Pisma (OCR - Optical Character Recognition), segmentacji artykułów i Optycznego Rozpoznawania Układu Strony (OLR - Optical Layout Recognition), rozpoznawania nazw (NER - Name Entity Recognition) oraz rozpoznawania typu strony. OCR umożliwia komputerową konwersję rastrowych plików graficznych zawierających teksty drukowane, pisane maszynowo i odręcznie na tekst możliwy do przetwarzania w edytorach tekstu. OLR pozwala na cyfrowe wydzielenie artykułów z zeskanowanej strony zawierającej więcej niż jeden artykuł. NER jest narzędziem służącym do wykrywania i klasyfikacji pojedynczych elementów tekstu w ramach określonych kategorii, takich jak nazwiska, nazwy organizacji, nazwy geograficzne i in.
W ramach projektu dokonana zostanie również ocena jakościowa zastosowanych technologii oczyszczania zdigitalizowanego tekstu oraz transformacja lokalnych formatów metadanych, które zostaną dostosowane do standardu Europeana Data Model (EDM) w ścisłej współpracy partnerów z sektora publicznego i prywatnego.
Koordynatorem projektu jest Biblioteka Państwowa w Berlinie.