Mastodawn

🔏 Matthias Wiesmann May 16

UTF-16 reintroduced the old byte split bugs on two byte quantities.

#unicode #utf16

https://george.mand.is/2026/05/my-favorite-bugs-invalid-surrogate-pairs/

My Favorite Bugs: Invalid Surrogate Pairs

In which I revisit one of my favorite bugs, the invalid surrogate pair.

George Mandis

Habr Apr 21

Как (не) перевернуть строку, или Ох, уж этот Unicode

Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на YouTube или VK Видео . Читать далее 🔍

https://habr.com/ru/companies/nspk/articles/1024668/

#java #unicode #utf8 #utf16 #кодировки #обработка_строк #emoji #суррогатные_пары #графемные_кластеры

Как (не) перевернуть строку, или Ох, уж этот Unicode

Это текстовая версия доклада с Java Rock Star Meetup, с которым выступал Александр Ланцов — ведущий разработчик Мир Plat.Form. Если вы больше любите смотреть видео, то смотрите запись доклада на...

Хабр

Inautilo Apr 10

#Development #Comparisons
Base64 is fast now, actually · The surprising speed of native base64 encoding https://ilo.im/16bzcf

_____
#Encoding #Base64 #UTF16 #JavaScript #Browsers #NodeJS #WebPerf #WebDev #Frontend #Backend

Base64 Is Fast Now, Actually

The browser's base64 encoding is fast now

🌈 Lascapi ⁂Mar 18

"Why does "👩🏾‍🌾" have a length of 7 in #JavaScript?"

A very nice analyse! 

#utf16 #unicode
by @EvanHahn
https://evanhahn.com/javascript-string-lengths/

Why does "👩🏾‍🌾" have a length of 7 in JavaScript?

👩🏾‍🌾 is made up of 1 grapheme cluster, 4 scalars, and 7 UTF-16 code units.

Habr Jan 5

Ну всё, пора закапывать UTF-8

Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым стандартом кодирования текста — Unicode Compact Format . No, God! Please, No, NO!

https://habr.com/ru/articles/983042/

#utf8 #utf16 #utf32 #ucs2 #ucs4 #scsu #bocu1 #utfc #ucf #$mol

Ну всё, пора закапывать UTF-8

Здравствуйте, меня зовут Дмитрий Карловский и я... серийный убийца устоявшихся стандартов. Сегодня я выследил и нанёс критический урон UTF-8. И сейчас я расскажу, как я его переиграл и уничтожил новым...

Хабр

The Eclectic Light Company [Unofficial]Jan 3

Text, strings and Unicode

https://fed.brid.gy/r/https://eclecticlight.co/2026/01/03/text-strings-and-unicode/

PersonalCompute.net Dec 19, 2025

UTF-8 is everywhere in modern software. Unfortunately, clear explanations of how it works and why it matters are quite rare, even if those should really be part of every "intro to programming" course. Most courses just deal with text processing by saying "here is the ASCII table, every letter is mapped to 1 byte, and texts are just arrays of letters" like we're stuck in the 90's.

This is the best explanation I've seen about #UTF8, #UTF16 and #Unicode: https://youtube.com/watch?v=vpSkBV5vydg . I highly recommend watching it if you write software but still have doubts about how "💩" is represented in memory.

#computerprogramming #programming #compsci #learnprogramming #emoji #emojis #emoticon

UTF-8, Explained Simply

YouTube

Habr Oct 15, 2025

[Перевод] Освоение Unicode в Java: создаём на Quarkus REST API, готовый к глобальной аудитории

В этом руководстве мы разберем непонятности вокруг Unicode и узнаем, как строить надёжные, интернациональные Java-приложения. Разберём теорию, укажем на подводные камни, а затем соберём «Глобальный сервис приветствий» на Quarkus, который переживёт весь хаос реального текста. К концу статьи вы разберётесь с тем, – как устроен Unicode и как Java на самом деле хранит текст; – почему длина строки и перебор символов сложнее, чем кажется; – как нормализация предотвращает неприятные несоответствия; – как настроить REST-сервис и базу данных для безопасной работы с Unicode. Unicode без боли

https://habr.com/ru/companies/otus/articles/956720/

#unicode #Quarkus #Java #UTF8 #UTF16 #графемные_кластеры #нормализация #nfc #сортировка_по_локали

Освоение Unicode в Java: создаём на Quarkus REST API, готовый к глобальной аудитории

От скрытых ловушек со строками до эндпоинтов, корректно обрабатывающих эмодзи — разберёмся, как корректно работать с текстом в современных Java-приложениях. Большинство разработчиков на Java печатали...

Хабр