1 min read

N-грамма (N-gram)

N-грамма (N-gram)
Фото: Aaron Burden / Unsplash

N-грамма — это последовательность из n слов, где n — дискретное число, которое может принимать значения от 1 до бесконечности. Например, слово «сыр» — это 1-грамма (униграмма). Сочетание «вкус сыра» состоит из двух слов, то есть является биграммой. Точно так же фраза «со вкусом сыра» состоит из трех слов и является триграммой. N-граммы широко применяются для упорядочивания текстовых данных в преддверии создания Модели (Model) Машинного обучения (ML)

Проблема с моделированием текста заключается в том, что последний весьма беспорядочный, а большинство Алгоритмов (Algorithm) предпочитают входные данные фиксированной длины и формата.

Алгоритмы Машинного обучения не могут работать напрямую с необработанным текстом: его необходимо преобразовать в числа а точнее, в векторы чисел. При языковой обработке векторы выводятся из текстовых данных, чтобы отразить различные лингвистические свойства текста. Это называется извлечением или Кодированием (Encoding) признаков, например, Мешок слов  (Bag of Words). При таком преобразовании каждое слово называются «граммой».