General Bibliography - General public bibliography for EOU and related research. #bibliography #dataset - https://www.earth.org.uk/bibliography.html
General Bibliography

General public bibliography for EOU and related research. #bibliography #dataset

ICLR 2026 – Institutional Affiliations Dataset and Analysis

ICLR 2026 학회에서 발표된 5,356편의 논문을 대상으로 PDF에서 직접 추출한 저자 소속 기관 데이터를 정제하여 공개하는 오픈소스 파이프라인과 데이터셋이 공개되었다. 이 데이터셋은 OpenReview 프로필 기반 소속 정보의 오류를 방지하며, 기관별 논문 수를 기준으로 한 시각화 차트도 제공한다. 파이프라인은 PDF 파싱, 정규화, 시각화까지 전 과정을 포함하며, 연구자와 AI 엔지니어가 기관별 연구 동향을 분석하는 데 유용하다. 깃허브에서 소스코드와 데이터셋을 확인하고 재현할 수 있다.

https://github.com/DmytroLopushanskyy/iclr2026-affiliations

#dataset #pdfparser #iclr #bibliometrics #machinelearningresearch

GitHub - DmytroLopushanskyy/iclr2026-affiliations: PDF-derived institutional affiliations for 5,356 ICLR 2026 accepted papers — full pipeline (scrape → parse → render), clean dataset (CSV + XLSX), and treemap charts.

PDF-derived institutional affiliations for 5,356 ICLR 2026 accepted papers — full pipeline (scrape → parse → render), clean dataset (CSV + XLSX), and treemap charts. - DmytroLopushanskyy/iclr2026-a...

GitHub

Bad dataset labels broke everything; we had to reconvert for Mac.

#dataset #kaggle #ml

antirez (@antirez)

imatrix에서 더 많은 tool calls를 반영하는 변경을 병합하고, 데이터셋 확장도 시도한다는 내용입니다. imatrix 생성은 더 느려지지만, 가끔만 수행해도 되는 작업이라 문제없다고 언급해 개발 도구/처리 파이프라인 개선에 해당합니다.

https://x.com/antirez/status/2054586213948928389

#imatrix #toolcalls #dataset #optimization #ai

antirez (@antirez) on X

@jedisct1 @StirlingForge @ivanfioravanti Whatever happened, more tool calls in the imatrix is a good idea :) I'm merging the change and also trying to extend the dataset. Generating the imatrix will be slower than ever but it's something we could do only from time to time, so it's fine.

X (formerly Twitter)

Project Aria @Meta (@meta_aria)

Aria Gen 2 Pilot Dataset(A2PD)가 공개되었습니다. 청소, 요리, 야외 산책 등 인간-환경 상호작용을 폭넓게 담은 데이터셋으로, Aria Gen 2 센서 스위트의 원시 센서 스트림을 포함해 모델 성능 향상과 멀티모달 연구에 활용될 수 있습니다.

https://x.com/meta_aria/status/2054270954017272300

#dataset #multimodal #sensors #ai #research

Project Aria @Meta (@meta_aria) on X

Level up your models with the Aria Gen 2 Pilot Dataset. 🚀 The Aria Gen 2 Pilot Dataset (A2PD) provides a holistic view of human-environment interaction, from cleaning and cooking to outdoor walks all on the Aria Gen 2 sensor suite. A2PD includes: 🔹Raw sensor streams

X (formerly Twitter)

Спецлаб-Гамбит: Удобная программа разметки объектов нейросети под системы видеонаблюдения

Для разработчиков умных камер, умных видеорегистраторов и нейросетевой видеоаналитики ПО видеонаблюдения нужна нейросеть, способная работать в реальных условиях наших улиц. А там никто с профессиональной камерой не ходит, правильный ракурс не настраивает, свет не выставляет, без сжатия не снимает и вообще все делает вопреки здравому смыслу учебников ВГИК. Гамбит, конечно, подойдет для любых других задач, но здесь сделан упор на удобство сбора материала ИЗ систем видеонаблюдения и на разметку датасета с целью создания нейросетей ДЛЯ систем видеонаблюдения. Гамбит не столько для отшлифованных фоток и рилсов из Интернета, а как раз наоборот – для не особо качественных видеозаписей из архивов видеонаблюдения. В Спецлабе называют такой контент «диким». Прочитать описание и Скачать бесплатно...

https://habr.com/ru/companies/speclab/articles/1034750/

#разметка_данных #разметка_изображений #нейронные_сети #нейронные_сети_и_машинное_обучение #датасет #dataset

Спецлаб-Гамбит: Удобная программа разметки объектов нейросети под системы видеонаблюдения

Для разработчиков умных камер, умных видеорегистраторов и нейросетевой видеоаналитики ПО видеонаблюдения нужна нейросеть, способная работать в реальных условиях наших улиц. А там никто с...

Хабр

Ilir Aliu (@IlirAliu_)

로보틱스 분야의 데이터 격차를 어떻게 해소할지 질문하는 내용으로, 로봇 AI 개발에서 데이터 수집·학습 문제의 중요성을 시사한다.

https://x.com/IlirAliu_/status/2054540040001233105

#robotics #ai #dataset #machinelearning

Ilir Aliu (@IlirAliu_) on X

Soooo… how do we close the data gap in robotics?

X (formerly Twitter)

Show HN: World Cup History MCP – every FIFA tournament 1930–2026

1930년부터 2026년까지 모든 FIFA 월드컵 데이터를 집대성한 World Cup History MCP API가 공개되었다. 이 API는 대회별 조별 순위, 선수 명단, 득점자, 경기 및 경기장 정보 등 방대한 축구 데이터를 포함하며, LLM과 연동 가능한 MCP 형태로 제공되어 AI 개발자들이 쉽게 활용할 수 있다. 무료 API 키를 통해 하루 1,000회 요청이 가능하며, 대시보드도 제공되어 별도 설치 없이 데이터 탐색이 가능하다. 축구 데이터 기반 통계 분석 및 AI 응용에 유용한 리소스다.

https://api.zafronix.com/wc-explorer/

#soccer #api #dataset #mcp #llm

World Cup Explorer — every tournament 1930→2026

23 World Cup tournaments. 1,168+ matches. 2,500+ players. Interactive charts powered by the Zafronix World Cup API — your starting point for fantasy apps, dashboards, and analytics.

Zafronix WC Explorer

Cuarzo-100K v2 – Python↔EN/ES/FR/ZH, 100% AST verified across all 4 languages

Cuarzo-100K v2는 Python 코드를 영어, 스페인어, 프랑스어, 중국어로 100% AST(Abstract Syntax Tree) 검증을 거쳐 번역한 대규모 다국어 코드 데이터셋입니다. 각 언어 간의 코드 변환이 정확하게 이루어졌음을 보장하며, 코드의 컴파일 가능 여부와 AST 일치 여부를 포함한 다양한 검증 지표를 제공합니다. 이 데이터셋은 다국어 코드 이해, 번역, LLM 파인튜닝 및 코드 생성 연구에 유용하게 활용될 수 있습니다.

https://huggingface.co/datasets/Cuarzo-AI/cuarzo-100k-v2

#dataset #multilingual #code #ast #python

Cuarzo-AI/cuarzo-100k-v2 · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.