LLM Evolution and Model Families

Major evolution milestones

BERT: encoder-only, masked language modeling, pretrain-then-finetune paradigm.
GPT family: decoder-only, next-token generation, in-context learning.
T5/BART: encoder-decoder text-to-text and denoising objectives.
InstructGPT / RLHF: alignment with human preferences (helpful/harmless style).
Open-weights era: LLaMA, Mistral, Falcon accelerated ecosystem adoption.
Multimodal + reasoning era: text-image-audio-video inputs and stronger reasoning models.

Model architecture families

Family	Architecture	Typical use
BERT-like	Encoder-only	Classification, NER, retrieval
GPT-like	Decoder-only	Generation, chat, coding
T5/BART-like	Encoder-decoder	Translation, summarization

Why model outputs differ across vendors

Even with similar transformer foundations, output quality differs due to data quality, alignment methods, post-training, inference stack, and tool integration.