PrithivirajDamodaran/C4_200M-synthetic-dataset-for-grammatical-error-correction

PrithivirajDamodaran

Fetched on 2026/06/23 02:53

This dataset contains synthetic training data for grammatical error correction. The corpus is generated by corrupting clean sentences from C4 using a tagged corruption model. The approach and the dataset are described in more detail by Stahlberg and Kumar (2021) (https://www.aclweb.org/anthology/2021.bea-1.4/) - View it on GitHub

Star

Rank

4242572

PrithivirajDamodaran

PrithivirajDamodaran / C4_200M-synthetic-dataset-for-grammatical-error-correction