Adithya Iyer (@adithy2)

이번 연구는 Wan2.2를 기반으로, 매우 적은 합성 데이터만으로 원본 영상 기반의 비디오-투-비디오(vid2vid) 스케일링이 가능한지 다루는 접근을 소개한다. 경쟁 작업인 Vista4D와는 다른 아키텍처 선택을 사용했다고 언급하며, raw footage를 활용한 효율적인 영상 생성/변환 가능성을 보여준다.

https://x.com/adithy2/status/2052523350485070085

#wan2.2 #vid2vid #videogeneration #syntheticdata #airesearch

Adithya Iyer (@adithy2) on X

@hckinz Hi! Vista4D was concurrent work to ours, and takes some different arch decisions, which are quite interesting in itself. Our method builds on Wan2.2, and more so tackles this pressing issue : can you scale a vid2vid by using raw footage, using very scarce synthetic data

X (formerly Twitter)
The preachers of the Silicon Valley Church sell the harvesting of the body as “algorithmic inevitability,” promising immortality. A neat fable. Maybe they’ll keep the data lords alive for 150 years—but half of it will be Alzheimer’s. In the end, the thermodynamic hammer still falls.
#Transhumanizm #DataEngineering #CRISPR #EdgeAI #GenerativeAI #FederatedLearning #MachineLearning #DataScience #AITools #AIAutomation #CloudComputing #SyntheticData #SyntheticData #AntiHarari #MLOps #Longevity

Emily (@IamEmily2050)

이미지·비디오 모델의 한계를 극복하기 위해 커뮤니티에서 새로운 합성 데이터 분야가 등장했고, 그 과정에서 storyboard가 새로운 표준처럼 자리잡고 있다고 언급합니다. 생성형 AI 학습 데이터와 워크플로우 변화 측면에서 중요한 흐름입니다.

https://x.com/IamEmily2050/status/2047129923832213640

#syntheticdata #imagegeneration #videomodels #storyboard #genai

Emily (@IamEmily2050) on X

People have not noticed, but a new field of synthetic data has emerged from the community, with people trying all kinds of tricks to get image and video models to work and overcome their limitations. The new standard, the storyboard, is not a new concept but has become more

X (formerly Twitter)

NVIDIA가 Nemotron-Personas-Korea를 공개했다. 한국인 합성 페르소나 700만 건(레코드 100만×7종), 26개 필드로 연령·지역·직업·소득·건강관심사 등 통계 기반 속성을 재현한다. NeMo Data Designer의 확률그래픽모델로 구조를 만들고 Gemma-4-31B로 자유서술 필드를 생성했다. CC BY 4.0·PIPA 준수로 상업적 사용 가능해 한국어 에이전트 현지화·RAG·파인튜닝 출발점이 되나 통계 근사·편향·톤 과몰입 등 검증이 필요하다.

https://jkf87.github.io/nemotron-personas-korea-2026-04-21

#nvidia #koreanai #syntheticdata #personas #nemotron

한국인 700만 명을 데이터로 찍어낸 회사 — NVIDIA Nemotron-Personas-Korea

NVIDIA가 KOSIS·건보공단·법원 통계에 묶인 합성 한국인 페르소나 700만 명을 공개함. 26개 필드, 17개 시·도, 2천 개 직업. LLM 에이전트가 "Hi, I'm your AI"가 아니라 "안녕하세요, 보건소로 가시면 됩니다" 하게 만드는 재료임.

코난쌤 블로그

엔비디아의 Nemotron-Personas-Korea는 KOSIS·대법원·국민건강보험·한국농촌경제연구원·NAVER Cloud의 시드 데이터로 통계적 근거를 반영해 생성한 700만(1M×7) 합성 페르소나 데이터셋입니다. 17개 지역·209K 이름·2천여 직업 등 한국형 맥락과 PIPA 준수를 목표로 하며, NeMo Data Designer·Gemma-4-31B로 제작되어 NemoClaw·NIM·API로 한국 맞춤 에이전트에 빠르게 적용할 수 있습니다.

https://huggingface.co/blog/nvidia/build-korean-agents-with-nemotron-personas

#syntheticdata #korea #nvidia #personas #aiagents

How to Ground a Korean AI Agent in Real Demographics with Synthetic Personas

A Blog post by NVIDIA on Hugging Face

I'm creating #syntheticdata for teaching in the social sciences & find that #SDG with LLMs isn't for my small-scale use. While there are workflows to combine LLMs & generate more credible output ( https://link.springer.com/chapter/10.1007/978-3-031-93418-6_9 ), general-purpose models often create results that are too diverse & reflexive, even when imitating oral communication. Such data reminds me of journalism scandals à la Stephen Glass. High-quality data in my case is more messy and dull. Just look at YouTube comment sections.
A Survey of LLM-Based Methods for Synthetic Data Generation and the Rise of Agentic Workflows

The growing reliance on high-quality datasets for artificial intelligence (AI) development highlights the need for synthetic data generation (SDG) to address data scarcity, privacy concerns, and acquisition costs. Large language models (LLMs) have emerged as key...

SpringerLink

Python Trending (@pythontrending)

NeMo Data Designer를 소개하며, 시드 데이터나 처음부터 고품질 합성 데이터를 생성할 수 있다고 설명한다. 데이터 생성 및 합성 데이터 파이프라인을 강화하는 AI 개발 도구로 주목할 만하다.

https://x.com/pythontrending/status/2041478326934466702

#syntheticdata #nemo #datageneration #aitools

Python Trending 🇺🇦 (@pythontrending) on X

DataDesigner - 🎨 NeMo Data Designer: Generate high-quality synthetic data from scratch or from seed data. https://t.co/K1Oo8N9Wzt

X (formerly Twitter)