Cuarzo-100K v2 – Python↔EN/ES/FR/ZH, 100% AST verified across all 4 languages

Cuarzo-100K v2는 Python 코드를 영어, 스페인어, 프랑스어, 중국어로 100% AST(Abstract Syntax Tree) 검증을 거쳐 번역한 대규모 다국어 코드 데이터셋입니다. 각 언어 간의 코드 변환이 정확하게 이루어졌음을 보장하며, 코드의 컴파일 가능 여부와 AST 일치 여부를 포함한 다양한 검증 지표를 제공합니다. 이 데이터셋은 다국어 코드 이해, 번역, LLM 파인튜닝 및 코드 생성 연구에 유용하게 활용될 수 있습니다.

https://huggingface.co/datasets/Cuarzo-AI/cuarzo-100k-v2

#dataset #multilingual #code #ast #python

Cuarzo-AI/cuarzo-100k-v2 · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.