Wat is model-centric AI? AI is een combinatie van code (=modellen) + data. In het verleden werd veel tijd besteed aan het verbeteren van de code en weinig tijd aan het verbeteren van de data.

Moderne inzichten geven aan dat de datakwaliteit heel belangrijk is voor het verbeteren van de AI's. Immers, garbage in = garbage out. Die aanpak heet data-centric AI.

Zie voor goede voorbeelden van fouten in datasets: https://www.labelerrors.com

#hoecomputersleren
#datacentricai

Label Errors in Benchmark ML Datasets

We identify label errors in 10 benchmark ML test sets and study the potential for these label errors to affect benchmark results.

Meta heeft versie 2 van Llama gepubliceerd onder een open source licentie. Dit is gelijk het beste open source taalmodel beschikbaar.

Je kan Llama-2 hier uitproberen: https://huggingface.co/chat

Bron: https://ai.meta.com/llama/

Ranking beste OS taalmodellen: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

#FOSS #hoecomputersleren

HuggingChat - Chat with AI models

Making the community's best AI chat models available to everyone

HuggingChat

Google heeft vandaag zijn chatbot BARD gelanceerd in Europa.

Google heeft wijzigingen rondom privacy door moeten voeren, zoals het verwijderen van je chat geschiedenis, om toegelaten te worden in de EU.

BARD zou wel eens beter kunnen worden dan ChatGPT. BARD geeft meer feitelijke antwoorden en het heeft toegang tot actuele gebeurtenissen. Zo kan het de vraag 'Wat gebeurde er gisteren in Vilnius?' beantwoorden. ( De NAVO-top).

Zie: bard.google.com

#hoecomputersleren #AI #BARD

Gebruik je enkele specifieke boeken of juist de hele bibliotheek om een Large Language Model (LLM) te trainen?

Onderzoekers van o.a. Meta hebben een paper gepubliceerd waaruit blijkt dat het trainen van een LLM met beperkte databronnen (1000) een vergelijkbaar resultaat oplevert als trainen op het 'gehele' internet, zoals bij ChatGPT.

In hun paper 'Less Is More for Alignment' (LIMA)' tonen ze aan dat je heel goed LLM's kunt trainen met veel minder data.

#hoecomputersleren

Stanford research has published a document on how 10 Large Language Models are compliant with the new EU AI Act.

It turns out that the open source model BLOOM (https://huggingface.co/bigscience/bloom) adheres best to the AI Act.

BLOOM has been developed by >1000 scientists and is hosted by @huggingface

Source:
https://crfm.stanford.edu/2023/06/15/eu-ai-act.html

#AI #LLM
#OpenSource
#howcomputerslearn
#hoecomputersleren

bigscience/bloom · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

I have created a Jupyter Notebook and compared 10 examples of AI-generated text with 10 examples of human written text. Using python code I calculated and compared their perplexity.

After just testing 20 examples, we can see in the graph below a clear difference between AI-generated and human written text using their perplexity-score.

This is promising, but lot more testing needed.
#howcomputerslearn
#hoecomputersleren

Repo:
https://github.com/MichielBbal/test_ai_detectors

GitHub - MichielBbal/test_ai_detectors: PoC to detect whether text is AI generated or written by a human

PoC to detect whether text is AI generated or written by a human - GitHub - MichielBbal/test_ai_detectors: PoC to detect whether text is AI generated or written by a human

GitHub

Welk Large Language Model presteert het beste?

Onderzoekers van Berkeley hebben een scorebord gemaakt. De score wordt bepaald via een wisdom-of-the-crowd aanpak. Je kan als gebruiker een prompt opvoeren en de antwoorden van twee willekeurige, anonieme LLM's worden getoond. Je kan het beste antwoord selecteren wat leidt tot hun onderlinge score.

GPT-4 staat bovenaan. De open source LLM's staan op een kleine achterstand, heel knap.

Probeer het via https://chat.lmsys.org/?arena

#hoecomputersleren

Chat with Open Large Language Models

This means that a the hundreds of millions spend on developing ChatGPT and Bard might be a waste of money.

Blog: https://simonwillison.net/2023/May/4/no-moat/

Leaked doc: https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

Vicuna: https://lmsys.org/blog/2023-03-30-vicuna/

#howcomputerslearn
#hoecomputersleren

Leaked Google document: “We Have No Moat, And Neither Does OpenAI”

SemiAnalysis published something of a bombshell leaked document this morning: Google “We Have No Moat, And Neither Does OpenAI”. The source of the document is vague: The text below is …

Large Language Models (LLM's) worden voortdurend doorontwikkeld. Bijgaand plaatje laat de stamboom zien van de meest gebruikte LLM's.

#hoecomputersleren
#PunctuatedEquilibrium

source: https://github.com/Mooler0410/LLMsPracticalGuide

GitHub - Mooler0410/LLMsPracticalGuide: A curated list of practical guide resources of LLMs (LLMs Tree, Examples, Papers)

A curated list of practical guide resources of LLMs (LLMs Tree, Examples, Papers) - GitHub - Mooler0410/LLMsPracticalGuide: A curated list of practical guide resources of LLMs (LLMs Tree, Examples,...

GitHub
Large, creative AI models will transform lives and labour markets

They bring enormous promise and peril. In the first of three special articles we explain how they work

The Economist