Mastodawn

The Guardian: ‘Things were going dark left and right’: the race to save US government datasets before they’re deleted. “André is part of a group of ‘data rescuers’ who have banded together during Trump’s second term. They have been quietly racing to save hundreds of critical government datasets before they are no longer available. Now known as the Data Rescue Project, it’s a […]

https://rbfirehose.com/2026/05/09/things-were-going-dark-left-and-right-the-race-to-save-us-government-datasets-before-theyre-deleted-the-guardian/

‘Things were going dark left and right’: the race to save US government datasets before they’re deleted (The Guardian)

The Guardian: ‘Things were going dark left and right’: the race to save US government datasets before they’re deleted. “André is part of a group of ‘data rescuers’ who have banded…

ResearchBuzz: Firehose

dobrepanstwo 22h ago

📰 The Battle for Data: How Information is Transforming Modern Warfare

The battle for data is redefining war. Learn how information and Big Data are transforming asymmetric conflicts. Explore information market strategy and the digital ecosystem of warfare.

https://dobrepanstwo.org/szkatulka-kosztownosci/bitwa-o-dane-jak-informacja-zmienia-wspolczesne-konflikty

#asymmetricwarfare #BigData #microdata #informationmarket #informationcontract

Fundacja Dobre Państwo | Polski Smart Tank

Tłumaczymy złożoność współczesnego świata na język zrozumiały dla każdego. Analizy o demokracji, gospodarce i społeczeństwie.

Fundacja Dobre Państwo

Alterego_Midshipman 1d ago

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

Голосовые ассистенты вроде Алисы давно перестали быть просто «озвученным поиском». Современная колонка — это гибрид из:

систем распознавания речи,

рекомендательных алгоритмов,

LLM-моделей,

пайплайнов синтеза голоса,

intent-routing,

контекстных менеджеров,

и огромного количества эвристик.

Именно поэтому пользователь регулярно сталкивается с парадоксом:

> Колонка способна философски ответить на экзистенциальный вопрос, но через минуту не может корректно включить нужную песню.

Со стороны это выглядит как «натуральная тупость». На практике — это последствия архитектуры современных conversational AI.

---

Иллюзия личности как продукт

Одним из главных отличий «Алисы» от ранних голосовых ассистентов стала намеренная попытка создать ощущение характера.

Ранние версии:

Siri,

Google Assistant,

Alexa

строились вокруг идеи «нейтрального помощника».

Яндекс пошёл другим путём:

сарказм,

эмоциональные ответы,

псевдофилософия,

мемная подача,

шутки,

реакция на грубость.

Это оказалось критически важным UX-решением.

Пользователь гораздо легче прощает ошибки системе, если воспринимает её не как интерфейс, а как «странного собеседника».

---

Почему колонка кажется «живой»

Основная причина — языковые модели великолепно имитируют человеческую речь.

LLM не:

«думает»,

«понимает»,

«осознаёт».

Она статистически предсказывает следующий токен.

Но человеческий мозг крайне плохо отличает:

настоящее понимание,

от правдоподобной речевой симуляции.

Из-за этого возникают феномены антропоморфизации:

люди приписывают ИИ эмоции,

намерения,

характер,

настроение,

«обиду»,

«упрямство».

Хотя на практике это:

probabilistic generation,

routing errors,

context collapse,

recommendation conflicts.

---

Ловушка контекста

Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

Пример:

1. «Кто написал “Войну и мир”?»

2. «Сколько ему было лет?»

Система ещё удерживает сущность:

Лев Толстой.

Но если вставить:

> «Какая завтра погода?»

контекст может разрушиться полностью.

Почему так происходит?

Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

ASR → Intent → Dialogue Manager → Search → LLM → TTS

Где:

ASR — распознавание речи,

Intent — определение намерения,

Dialogue Manager — управление контекстом,

Search — поиск,

LLM — генерация ответа,

TTS — синтез голоса.

Контекст может потеряться буквально между этапами.

Особенно в гибридных системах, где:

часть запросов идёт в search engine,

часть — в rule-based handlers,

часть — в LLM.

---

Почему ИИ уверенно врёт

Самая опасная особенность современных LLM — галлюцинации.

Модель не хранит знания как база данных.

Она строит:

> наиболее вероятную последовательность слов.

Поэтому возникают:

несуществующие цитаты,

вымышленные учёные,

фальшивые версии ПО,

придуманные события,

несуществующие функции API.

Особенно неприятно то, что модель:

почти никогда не демонстрирует естественную неуверенность,

и генерирует бред с тем же тоном, что и правду.

Для пользователя это выглядит как:

> «Она врёт и сама в это верит».

Но технически «веры» там нет вообще.

---

VAD: почему колонка «оживает» ночью

Один из самых криповых эффектов — ложные активации.

Колонка внезапно начинает говорить:

ночью,

на фоне телевизора,

из-за шума,

из-за музыки,

иногда даже из-за кашля или шорохов.

Причина — технология VAD.

Что такое VAD

VAD — Voice Activity Detection.

Система постоянно анализирует аудиопоток:

локально,

в ожидании wake-word,

без постоянной отправки всего звука в облако.

Но алгоритм может ошибаться.

Тогда:

случайный шум,

слово из фильма,

обрывок фразы,

созвучие имени ассистента

воспринимаются как команда активации.

Именно отсюда берутся знаменитые:

> «Я здесь.»

в полной темноте в 3 часа ночи.

---

Почему вместо Rammstein включается «Синий трактор»

Это уже конфликт двух независимых систем:

1. ASR (распознавание речи),

2. recommender system.

Если в аккаунте:

дети,

мультфильмы,

детские песни,

семейный профиль,

то recommendation engine начинает aggressively priorize детский контент.

Даже если пользователь произнёс запрос корректно.

С точки зрения алгоритма:

> «детская музыка» — statistically safer recommendation.

Для пользователя:

> «колонка сошла с ума».

---

Самый интересный эффект: интеллект без понимания

Вот здесь начинается самая странная часть.

Современные LLM:

прекрасно имитируют язык,

но крайне плохо строят устойчивую world model.

Из-за этого они способны:

обсуждать философию,

писать код,

поддерживать стиль,

шутить,

спорить.

И одновременно:

проваливать базовую логику,

путать сущности,

ломать причинно-следственные связи,

забывать контекст через две реплики.

Получается феномен:

> «интеллектуально звучащей системы без полноценного понимания».

---

Почему это психологически пугает

Человеческий мозг автоматически ищет субъектность.

Если объект:

говорит,

реагирует,

использует эмоции,

меняет интонации,

спорит,

шутит,

то мы начинаем воспринимать его как агента.

Даже если это:

набор вероятностных моделей,

intent-routing,

рекомендательные алгоритмы,

и несколько нейросетей поверх ASR.

Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

Пользователь интерпретирует их как:

«странное поведение»,

«характер»,

«эмоции»,

«обиду»,

«упрямство».

Хотя на практике это всего лишь:

probabilistic failure,

context collapse,

false activation,

ranking conflict.

---

Итог

Современные голосовые ассистенты находятся в странной точке эволюции.

Они уже:

слишком разговорчивы, чтобы считаться обычным интерфейсом,

но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

Поэтому возникает тот самый эффект:

> между «восстанием машин» и «интеллектом табуретки».

И, возможно, именно эта смесь:

уверенного тона,

человеческой интонации,

псевдоэмоций,

случайных сбоев,

и статистической генерации

делает современные колонки одновременно:

полезными,

смешными,

раздражающими,

и местами откровенно криповыми.

#ИИ #ИскусственныйИнтеллект #AI #LLM #YandexGPT #Алиса #УмнаяКолонка #ГолосовойАссистент #Нейросети #MachineLearning #DeepLearning #ASR #TTS #VAD #ConversationalAI #GenerativeAI #Habr #Хабр #Технологии #IT #UX #Интернет #РекомендательныеСистемы #BigData #Цифровизация #Автоматизация #FutureTech #AIethics #Chatbot #VoiceAI

https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

SValmon37

SValmon37. Shares: 587 Followers: 26

Bastyon

Alterego_Midshipman 1d ago

Когда «умная» колонка ведёт себя как табуретка: почему голосовые ИИ одновременно поражают и тупят

систем распознавания речи,

рекомендательных алгоритмов,

LLM-моделей,

пайплайнов синтеза голоса,

intent-routing,

контекстных менеджеров,

и огромного количества эвристик.

Именно поэтому пользователь регулярно сталкивается с парадоксом:

---

Иллюзия личности как продукт

Ранние версии:

Siri,

Google Assistant,

Alexa

строились вокруг идеи «нейтрального помощника».

Яндекс пошёл другим путём:

сарказм,

эмоциональные ответы,

псевдофилософия,

мемная подача,

шутки,

реакция на грубость.

Это оказалось критически важным UX-решением.

---

Почему колонка кажется «живой»

Основная причина — языковые модели великолепно имитируют человеческую речь.

LLM не:

«думает»,

«понимает»,

«осознаёт».

Она статистически предсказывает следующий токен.

Но человеческий мозг крайне плохо отличает:

настоящее понимание,

от правдоподобной речевой симуляции.

Из-за этого возникают феномены антропоморфизации:

люди приписывают ИИ эмоции,

намерения,

характер,

настроение,

«обиду»,

«упрямство».

Хотя на практике это:

probabilistic generation,

routing errors,

context collapse,

recommendation conflicts.

---

Ловушка контекста

Одна из главных проблем голосовых ассистентов — хрупкость conversational context.

Пример:

1. «Кто написал “Войну и мир”?»

2. «Сколько ему было лет?»

Система ещё удерживает сущность:

Лев Толстой.

Но если вставить:

> «Какая завтра погода?»

контекст может разрушиться полностью.

Почему так происходит?

Потому что внутри колонки обычно работает не одна модель, а целый конвейер:

ASR → Intent → Dialogue Manager → Search → LLM → TTS

Где:

ASR — распознавание речи,

Intent — определение намерения,

Dialogue Manager — управление контекстом,

Search — поиск,

LLM — генерация ответа,

TTS — синтез голоса.

Контекст может потеряться буквально между этапами.

Особенно в гибридных системах, где:

часть запросов идёт в search engine,

часть — в rule-based handlers,

часть — в LLM.

---

Почему ИИ уверенно врёт

Самая опасная особенность современных LLM — галлюцинации.

Модель не хранит знания как база данных.

Она строит:

> наиболее вероятную последовательность слов.

Поэтому возникают:

несуществующие цитаты,

вымышленные учёные,

фальшивые версии ПО,

придуманные события,

несуществующие функции API.

Особенно неприятно то, что модель:

почти никогда не демонстрирует естественную неуверенность,

и генерирует бред с тем же тоном, что и правду.

Для пользователя это выглядит как:

> «Она врёт и сама в это верит».

Но технически «веры» там нет вообще.

---

VAD: почему колонка «оживает» ночью

Один из самых криповых эффектов — ложные активации.

Колонка внезапно начинает говорить:

ночью,

на фоне телевизора,

из-за шума,

из-за музыки,

иногда даже из-за кашля или шорохов.

Причина — технология VAD.

Что такое VAD

VAD — Voice Activity Detection.

Система постоянно анализирует аудиопоток:

локально,

в ожидании wake-word,

без постоянной отправки всего звука в облако.

Но алгоритм может ошибаться.

Тогда:

случайный шум,

слово из фильма,

обрывок фразы,

созвучие имени ассистента

воспринимаются как команда активации.

Именно отсюда берутся знаменитые:

> «Я здесь.»

в полной темноте в 3 часа ночи.

---

Почему вместо Rammstein включается «Синий трактор»

Это уже конфликт двух независимых систем:

1. ASR (распознавание речи),

2. recommender system.

Если в аккаунте:

дети,

мультфильмы,

детские песни,

семейный профиль,

то recommendation engine начинает aggressively priorize детский контент.

Даже если пользователь произнёс запрос корректно.

С точки зрения алгоритма:

> «детская музыка» — statistically safer recommendation.

Для пользователя:

> «колонка сошла с ума».

---

Самый интересный эффект: интеллект без понимания

Вот здесь начинается самая странная часть.

Современные LLM:

прекрасно имитируют язык,

но крайне плохо строят устойчивую world model.

Из-за этого они способны:

обсуждать философию,

писать код,

поддерживать стиль,

шутить,

спорить.

И одновременно:

проваливать базовую логику,

путать сущности,

ломать причинно-следственные связи,

забывать контекст через две реплики.

Получается феномен:

> «интеллектуально звучащей системы без полноценного понимания».

---

Почему это психологически пугает

Человеческий мозг автоматически ищет субъектность.

Если объект:

говорит,

реагирует,

использует эмоции,

меняет интонации,

спорит,

шутит,

то мы начинаем воспринимать его как агента.

Даже если это:

набор вероятностных моделей,

intent-routing,

рекомендательные алгоритмы,

и несколько нейросетей поверх ASR.

Именно поэтому сбои голосовых ИИ воспринимаются не как обычные баги.

Пользователь интерпретирует их как:

«странное поведение»,

«характер»,

«эмоции»,

«обиду»,

«упрямство».

Хотя на практике это всего лишь:

probabilistic failure,

context collapse,

false activation,

ranking conflict.

---

Итог

Современные голосовые ассистенты находятся в странной точке эволюции.

Они уже:

слишком разговорчивы, чтобы считаться обычным интерфейсом,

но ещё слишком нестабильны, чтобы считаться полноценным интеллектом.

Поэтому возникает тот самый эффект:

> между «восстанием машин» и «интеллектом табуретки».

И, возможно, именно эта смесь:

уверенного тона,

человеческой интонации,

псевдоэмоций,

случайных сбоев,

и статистической генерации

делает современные колонки одновременно:

полезными,

смешными,

раздражающими,

и местами откровенно криповыми.

https://bastyon.com/svalmon37?ref=PJ51iZCUEtcVrCj4Wof8Am7FbKLgbAJ7PS

Habr 1d ago

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Привет, Хабр! На связи Илья Амосов из команды поддержки Lakehouse-платформы данных Data Ocean Nova вендора Data Sapience. В сегодняшней публикации я раскрою тему влияния динамического сокрытия чувствительных данных на производительность SQL-запросов. Мы сравним различные методики маскирования, узнаем, как работает оптимизатор и движок со скрытыми полями, происходит ли деградация пропускной способности платформы, как влияет на производительность выбранный метод сокрытия чувствительных данных в случаях, если вы используете компонент на базе Apache Ranger.

https://habr.com/ru/companies/datasapience/articles/1033038/

#mpp #lakehouse #datalakehouse #dwh #bigdata #ranger

Нагрузочное тестирование динамического маскирования в Apache Ranger: что происходит с производительностью запросов

Хабр

China Business Forum 2d ago

[#TRADESHOW] 2026 #Tech #Week #Shanghai from May 6 to 7, 2026, at #Pudong Kerry Hotel in #Shanghai, China. #Event focuses on #data #industrialization and #internationalization, and industrial #digitalization, covering the full process from data #production and #processing to #transaction, and application. It serves as a #B2B #business platform for #DataCenters, #cloud services, #AI #infrastructure, #BigData, #cybersecurity, and cross-border #digital services. https://cnbusinessforum.com/event/2026-tech-week-shanghai/

2026 Tech Week Shanghai | Digital Economy Expo Shanghai 2026

Register now to explore 2026 Tech Week Shanghai, a digital economy and data technology expo in Shanghai, China, from May 6–7, 2026, for data center operators, cloud providers, AI professionals, s

China Business Forum

Politico.eu (Unofficial RSS)3d ago

EU clinches deal to roll back AI restrictions https://www.politico.eu/article/eu-clinches-deal-to-roll-back-ai-restrictions/?utm_source=RSS_Feed&utm_medium=RSS&utm_campaign=RSS_Syndication #CybersecurityandDataProtection #ArtificialIntelligence #Internetgovernance #Dataprotection #Internetsearch #Medicaldevices #Intelligence #Algorithms #Technology #HealthCare #Technology #Companies #Industry #Bigdata #Privacy #Space #MEPs

EU clinches deal to roll back AI restrictions

Deal marks first significant delay of digital rules amid pressure from the U.S.

POLITICO

PPC Land 3d ago

ICYMI: Kenya's Statistics Bill, 2026 replaces KNBS with sweeping new data authority: Kenya's Statistics Bill, 2026 proposes replacing KNBS with a new authority, expanding data governance to cover biometric, big, and citizen-generated data sets. https://ppc.land/kenyas-statistics-bill-2026-replaces-knbs-with-sweeping-new-data-authority/ #Kenya #StatisticsBill #DataGovernance #BiometricData #BigData

Kenya's Statistics Bill, 2026 replaces KNBS with sweeping new data authority

Kenya's Statistics Bill, 2026 proposes replacing KNBS with a new authority, expanding data governance to cover biometric, big, and citizen-generated data sets.

PPC Land

Show thread

𝓗☮𝓶𝓮𝓻 3d ago

@blast_info #BigData #Ai jusqu' où iront-ils?

heise online English 3d ago

"Pressure Cooker": Europol's secret data processing without supervision

Internal warnings sent via freedom of information show that EU police agency operated operational networks without IT control and proper logging for a long time.

https://www.heise.de/en/news/Pressure-Cooker-Europol-s-secret-data-processing-without-supervision-11283543.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege&utm_source=mastodon

#BigData #Datenschutz #EU #Netzpolitik #Polizei #Sicherheitslücken #Überwachung #news

"Pressure Cooker": Europol's secret data processing without supervision

Internal warnings sent via freedom of information show that EU police agency operated operational networks without IT control and proper logging for a long time.

heise online