Struktura korpusu

Korpus powinien być nie tylko wielki, lecz także zrównoważony i reprezentatywny, powinien odzwierciedlać przeciętne poczucie językowe Polek i Polaków, odbiorców tekstów pisanych. Korpus Dekady będzie miał proporcje podobne do NKJP z uwzględnieniem zwiększającej się roli komunikacji sieciowej i mediów społecznościowych. Zrównoważona część podstawowa korpusu to 100 milionów słów. Musimy jednak zebrać kilkakrotnie więcej tekstu, aby móc zrównoważyć całość. Podstawowy korpus będzie się składać w 90 proc. z tekstów pisanych, w 10 proc. z transkrypcji rozmów i innych gatunków mówionych. 40 proc. tekstów pisanych to książki, w tym 20 proc. beletrystka, 40 proc. to prasa, a 20 proc. teksty prymarnie internetowe: strony statyczne oraz media społecznościowe. (Gatunek tekstu nie zawsze jest tożsamy z kanałem przekazu, internetowe wydania prasy oraz sieciowe wersje książek traktujemy odpowiednio jak prasę i książki). Do korpusu nie włączamy przekładów z obcych języków, tylko w niewielkim stopniu teksty poetyckie, archaizowane czy dialektyzowane.

Wybierając tekst, kierujemy różnorodnością gatunków, tematów, a także płci i wieku autorów i autorek. Korpus nie reprezentuje żadnej strony politycznej czy światopoglądowej barykady. Włączenie tekstu do korpusu literackiego może, lecz nie musi być świadectwem wartości dzieła, obecność tekstu w korpusie w większym stopniu zależy od jego popularności (liczny odbiorców, do których trafił, zanim włączymy go do korpusu).