Eine neue Open-Science-Initiative befreit die KI

Home » Eine neue Open-Science-Initiative befreit die KI

Eine internationale Zusammenarbeit akademischer Freiwilliger bricht mit einem neuen 175-Milliarden-Parameter-Modell im Rahmen einer Open-Science-Initiative in das große Sprachmodellfeld ein.

Das BLOOM-Sprachmodell, das mit öffentlich finanzierter Rechenzeit im Wert von 7 Millionen US-Dollar trainiert wurde, wird sich mit ähnlichen Modellen von Technologiegiganten wie Google und OpenAI messen.

Abgesehen von seinen kollaborativen Wurzeln und der Entscheidung, das Projekt als Open Source zu veröffentlichen, ist BLOOM auch das erste Modell dieser Größenordnung, das mehrsprachig ist und für Forschungszwecke zur Verfügung gestellt wird.

Ein offener Ansatz

Große Sprachmodelle sind ML-Algorithmen, die menschliche Sprachen erkennen, vorhersagen und generieren können, indem sie sich auf die enormen textbasierten Datensätze stützen, die zu ihrem Training verwendet werden.

Sie können auf Fragen antworten, Aufsätze schreiben oder Computercode mit begrenzten Anweisungen generieren. Tatsächlich wird GitHub Copilot, das Softwareentwicklern beim Schreiben von Code hilft, von Codex unterstützt, das selbst aus dem bekannten GPT-3-Modell umfunktioniert wurde.

Aufgrund des enormen Rechenaufwands, der zum Trainieren solcher Modelle erforderlich ist, werden große Sprachmodelle bis heute von großen Technologieunternehmen mit finanziellen Mitteln erstellt. Hinter den Kulissen werden sie jedoch von relativ kleinen Teams geleitet, die sich an leicht verfügbare Ressourcen wie Online-Repositories oder beliebte Websites wie Reddit wenden, um die Daten zum Trainieren ihrer Modelle zu erhalten.

BLOOM seinerseits ist das Werk von Hunderten von Forschern, die hauptsächlich aus Akademikern wie Ethikern, Rechtswissenschaftlern und Philosophen bestehen. gemäß zu Natur. Datenquellen wurden durch eine Reihe von Workshops mit einer viel breiteren Basis von Mitarbeitern identifiziert, einschließlich Community-Gruppen auf der ganzen Welt.

Es wird davon ausgegangen, dass die Forscher fast zwei Drittel des 341-Milliarden-Wörter-Datensatzes aus etwa 500 Quellen handverlesen haben. Abgerundet wurde dies durch einen mehrsprachigen Webcrawl, der auf Qualität gefiltert wurde.

Ein öffentlich gefördertes Modell

„Alles geschieht völlig offen, jeder kann teilnehmen, und alle Forschungsartefakte werden mit der gesamten Forschungsgemeinschaft geteilt“, war Giada Pistilli, Ethikerin bei der KI-Firma Hugging Face zitiert wie gesagt über BLOOM.

„[BLOOM] ist als interdisziplinärer Forschungsworkshop konzipiert, der Forscher – akademische, industrielle und unabhängige – mit einer Vielzahl von Forschungsinteressen zusammenbringt, [including] KI, Verarbeitung natürlicher Sprache, Sozialwissenschaften, Recht, Ethik und öffentliche Ordnung“, sagte sie.

BLOOM wird derzeit auf Jean Zay trainiert, einem von der französischen Regierung finanzierten Supercomputer, der im IDRIS, dem nationalen Rechenzentrum des französischen Nationalen Zentrums für wissenschaftliche Forschung (CNRS), installiert ist.

Zugriff auf 384 Nvidia A100-GPUs mit jeweils 80 GB Speicher wurde BLOOM für mehrere Monate zugeteilt und bietet ungefähr 1,2 Millionen GPU-Stunden. Zum Vergleich: Der neue Supercomputer der thailändischen National Science and Technology Development Agency (NSTDA) wird von 704 Nvidia A100 Tensor Core GPUs angetrieben.

Wenn vollständig trainiert, wird BLOOM 176 Milliarden Parameter haben und mehr als 350 Milliarden Wörter aus 46 verschiedenen Sprachen verbraucht haben. Sie können mehr über die Architektur hinter BLOOM und seine verschiedenen Designentscheidungen im Forschungsbericht lesen hier.

KI für alle

Einige haben BLOOM bereits als das Wichtigste bezeichnet KI-Modell des Jahrzehntsvor Googles Pathways Language Model (PaLM)-Modell mit 540 Milliarden Parametern oder dem bahnbrechenden GPT-3.

Mit BLOOM ist „modernste KI nicht länger großen Konzernen mit großen Taschen vorbehalten“, argumentiert KI-Analyst Alberto Romero in einem Beitrag.

Romero merkte an, dass die Finanzierung und der Aufbau eines offenen großen Sprachmodells einen starken Druck auf die verschiedenen Technologiegiganten ausgeübt haben, ihre Modelle als Open Source zu veröffentlichen. Aus dieser Perspektive sei BLOOM die „Speerspitze“ einer bevorstehenden Veränderungswelle im KI-Bereich, sagt er.

Während letztes Jahr die Grundlagen geschaffen wurden, ging es an die eigentliche Ausbildung von BLOOM im April begonnen. Nur einen Monat später, im Mai, gab Meta AI bekannt, dass es sein massives neues Sprachmodell OPT-175B als Teil seiner Bemühungen zur Demokratisierung der KI verschenken wird.

Das vollständig trainierte BLOOM-Modell wird zum Download zur Verfügung stehen, obwohl es für den Betrieb leistungsstarke Hardware erfordert, auf die nicht viele Forscher Zugriff haben. Es werden jedoch kleinere, weniger hardwareintensive Versionen zur Verfügung gestellt.

Darüber hinaus hat sich Hugging Face verpflichtet, eine Webanwendung zu veröffentlichen, um BLOOM online abzufragen. Da der Code und der Datensatz hinter dem BLOOM-Modell offen sind, hofft man, dass Forscher ihn untersuchen können, um zur Verbesserung zukünftiger Iterationen beizutragen.

Paul Mah ist der Herausgeber von DSAITrends. Als ehemaliger Systemadministrator, Programmierer und IT-Dozent schreibt er sowohl Code als auch Prosa. Sie erreichen ihn unter [email protected].​

Bildnachweis: iStockphoto/RossellaApostoli