Tokenizers


Content:

public class HuggingFaceTokenizer : ITokenizer

Language: C#

Токенизатор на основе HuggingFace Tokenizers library.
В данной реализации используется эвристика (без Python runtime).

public class SentencePieceTokenizer : ITokenizer

Language: C#

Простой токенизатор на основе SentencePiece для моделей типа LLaMA.
Реализация использует эвристику без native библиотеки.

public class SimpleTokenizer : ITokenizer

Language: C#

Простой токенизатор по пробелам (минимальная рабочая реализация).

public class TikTokenTokenizer : ITokenizer

Language: C#

Токенизатор на основе TikToken (используется OpenAI).
Требует установки NuGet пакета: TiktokenSharp