Googles unglaubliche neue Foto-KI macht „Zoomen und Verbessern“ zu einer echten Sache

(Google-Recherche)

Möglicherweise haben Sie Science-Fiction-Filme oder Fernsehsendungen gesehen, in denen der Protagonist darum bittet, in ein Bild hineinzuzoomen und das Ergebnis zu verbessern – indem er ein Gesicht, ein Nummernschild oder ein anderes wichtiges Detail enthüllt – und das Neueste von Google künstliche Intelligenz Motoren, die auf sogenannten Diffusionsmodellen basieren, sind in der Lage, genau diesen Trick zu vollbringen.

Es ist ein schwierig zu meisternder Prozess, denn im Wesentlichen werden Bilddetails hinzugefügt, die die Kamera ursprünglich nicht erfasst hat, und zwar mithilfe einer superintelligenten Vermutung, die auf anderen, ähnlich aussehenden Bildern basiert.

Die Technik wird von Google natürliche Bildsynthese und in diesem speziellen Szenario Bild-Superauflösung genannt. Sie beginnen mit einem kleinen, blockigen, pixeligen Foto und erhalten am Ende etwas Scharfes, Klares und Natürlich Aussehendes. Es stimmt vielleicht nicht genau mit dem Original überein, ist aber nah genug, um für ein menschliches Auge echt zu wirken.

(Google-Recherche)

Google hat tatsächlich zwei neue KI-Tools für diesen Job vorgestellt. Der erste heißt SR3 oder Superauflösung durch wiederholte Verfeinerung , und es funktioniert, indem es einem Bild Rauschen oder Unvorhersehbarkeit hinzufügt und dann den Prozess umkehrt und entfernt – so wie ein Bildbearbeiter versuchen könnte, Ihre Urlaubsfotos schärfer zu machen.

„Diffusionsmodelle funktionieren, indem sie die Trainingsdaten durch fortschreitendes Hinzufügen verfälschen.“ Gaußsches Rauschen „Dabei werden Details in den Daten langsam ausgelöscht, bis sie zu reinem Rauschen werden, und dann wird ein neuronales Netzwerk trainiert, um diesen Korruptionsprozess umzukehren“, erklären der Forscher Jonathan Ho und der Software-Ingenieur Chitwan Saharia von Google-Recherche .

Durch eine Reihe von Wahrscheinlichkeitsberechnungen basierend auf einer umfangreichen Bilddatenbank und einigen maschinelles Lernen Durch Magie ist SR3 in der Lage, sich vorzustellen, wie eine vollaufgelöste Version eines blockigen Bildes mit niedriger Auflösung aussieht. Mehr darüber können Sie in dem Artikel lesen, den Google veröffentlicht hat arXiv .

Das zweite Tool ist CDM oder Kaskadierte Diffusionsmodelle . Google beschreibt diese als „Pipelines“, durch die Diffusionsmodelle – einschließlich SR3 – für qualitativ hochwertige Upgrades der Bildauflösung geleitet werden können. Es nimmt die Erweiterungsmodelle und erstellt daraus größere Bilder, und Google hat es getan hat einen Aufsatz veröffentlicht auch dazu.

CDM in Aktion. (Google-Recherche)

Durch die Verwendung verschiedener Verbesserungsmodelle bei unterschiedlichen Auflösungen ist der CDM-Ansatz laut Google in der Lage, alternative Methoden zur Bildvergrößerung zu übertreffen. Die neue KI-Engine wurde getestet ImageNet , eine riesige Datenbank mit Trainingsbildern, die häufig für die Forschung zur visuellen Objekterkennung verwendet werden.

Die Endergebnisse von SR3 und CDM sind beeindruckend. In einem Standardtest mit 50 menschlichen Freiwilligen wurden SR3-generierte Bilder menschlicher Gesichter in etwa 50 Prozent der Fälle mit echten Fotos verwechselt – und wenn man bedenkt, dass ein perfekter Algorithmus eine Punktzahl von 50 Prozent erreichen würde, ist das beeindruckend.

Es sei noch einmal darauf hingewiesen, dass diese verbesserten Bilder keine exakten Übereinstimmungen mit den Originalen darstellen, sondern dass es sich um sorgfältig berechnete Simulationen handelt, die auf fortgeschrittener Wahrscheinlichkeitsrechnung basieren.

Google sagt, dass der Diffusionsansatz bessere Ergebnisse liefert als alternative Optionen, einschließlich Generative gegnerische Netzwerke (GANs) die Grube zwei Neuronale Netze gegeneinander an, um die Ergebnisse zu verfeinern.

(Google-Recherche)

Google verspricht sich von seinen neuen KI-Engines und den damit verbundenen Technologien noch viel mehr – nicht nur im Hinblick auf die Hochskalierung von Bildern von Gesichtern und anderen natürlichen Objekten, sondern auch in anderen Bereichen der Wahrscheinlichkeitsmodellierung.

„Wir freuen uns, die Grenzen von Diffusionsmodellen für eine Vielzahl generativer Modellierungsprobleme weiter zu testen“, erklärt das Team .

Über Uns

Die Veröffentlichung Unabhängiger, Nachgewiesener Fakten Von Berichten Über Gesundheit, Raum, Natur, Technologie Und Umwelt.