Изследване на машинното обучение на Apple: Ето как Apple изследва изкуствения интелект

  • Apple комбинира Apple Intelligence и Foundation Models, за да внесе генеративен и контекстуален изкуствен интелект в своите устройства, като дава приоритет на изпълнението на самото устройство.
  • Рамки като Core ML, Vision, Speech, Create ML и MLX позволяват на разработчици и изследователи да обучават, оптимизират и внедряват модели на Apple Silicon.
  • Компанията проучва техники като синтетични данни, диференциална поверителност и сливане на сензори с LLM, за да подобри изкуствения интелект, без да жертва поверителността на потребителите.
  • Екипи, специализирани в инфраструктура, дълбоко обучение, подсилване, NLP и реч, подкрепят стратегия за изкуствен интелект, фокусирана върху реални продукти и максимално уважение към поверителността.

Изследване на машинното обучение на Apple: Ето как Apple изследва изкуствения интелект и машинното обучение

Изследванията в областта на машинното обучение в Apple се превърнаха в едно от... ключови елементи за разбиране на развитието на изкуствения интелект когато бъде представено на широката публика. Не говорим само за впечатляващи облачни модели, а за изкуствен интелект, който живее на вашия iPhone, iPad, Mac или Apple Watch и работи директно на устройството с почти обсесивен фокус върху поверителността.

В тази статия ще разгледаме как всъщност работи Изследвания на машинното обучение на Apple и екосистемата на Apple Intelligenceкакви технологии използват, какви рамки имате като разработчик, как са организирани вътрешните изследвания, Назначаването на Амар СубраманяКаква роля играят Mac компютрите със силиция на Apple и защо компанията настоява толкова много за концепции като „обработка на устройството“ или „частни облачни изчисления“? Настанете се удобно, защото ще разгледаме всичко подробно. Нека започнем с подробно ръководство за... Изследване на машинното обучение на Apple: Ето как Apple изследва изкуствения интелект и машинното обучение.

Apple Intelligence: Залогът на Apple върху личния и частния изкуствен интелект

Apple Intelligence в екосистемата на Apple

Apple нарече новия си чадър от функции за изкуствен интелект като Apple Intelligence, система за личен интелект Интегрира се с iOS, iPadOS, macOS и други платформи. Идеята е ясна: изкуственият интелект разбира вашия контекст, вашите приоритети и вашите данни, но без да се налага да жертвате поверителността си.

На практика Apple Intelligence е забележим в ежедневни функции, като например Сортирайте известията и имейлите според това, което е наистина важно за васПренаписвайте, коригирайте или обобщавайте текстове с помощта на инструментите за писане или лесно генерирайте изображения от системата. Всичко това е подкрепено от надеждни базови модели, оптимизирани за работа на устройството.

Една поразителна особеност е, че Apple е решила, че нейната система от Генерирането на изображения не създава фотореалистични портрети на хораСтиловете ще бъдат по-илюстративни или креативни, като начин за ограничаване на използването на дийпфейкове и други често срещани злоупотреби в генеративния изкуствен интелект.

Компанията е интегрирала изкуствен интелект и в много специфични функции, като например интелигентно редактиране на снимки за премахване на нежелани елементи, подобряване на ръкописни бележки на iPad (коригиране на почерка ви с помощта на машинно обучение) или генериране на илюстрации от бързи скици във вашия дигитален бележник.

Изключителна поверителност: Изкуствен интелект на устройството и частни облачни изчисления

Една от най-големите мании на Apple е, че изкуственият интелект, винаги когато е възможно, директно на устройството, за да се осигури максимална защита на личните данниКогато Apple говори за Apple Intelligence, компанията настоява, че системата „знае вашата информация, но не я пази“.

Това означава, че много текстови, гласови, графични или контекстни функции използват модели, които работят на вашия iPhone, iPad или Mac, разчитайки на силициевия чип и Neural Engine на Apple. Прибягва до облака само когато е необходима повече мощност или памет.И точно тук влизат в действие частните облачни изчисления.

Частните облачни изчисления позволяват на определени процеси да се изпълняват в Сървъри с чипове на Apple, проектирани специално за обработка на вашите данни изолирано и да изтрие тази информация, когато задачата е завършена. Apple обещава, че дори в тези случаи не създава индивидуални профили, нито свързва данните с вашата самоличност.

Тази философия се разпростира и върху специфични функции, като например транскрипции на разговори или записи в реално време. Разговорите се обработват, за да се генерират текст и резюметано винаги спазвайки предпоставката да не се разкрива съдържанието му повече от строго необходимото и да се уведомяват участниците, когато разговорът се транскрибира.

Технически основи: Базови модели и високо ниво API

В основата на Apple Intelligence са Основни модели, модели с големи езици и мултимодални модели предназначени за различни ежедневни задачи: обобщаване, извличане на информация, класифициране, генериране на структуриран текст или водене на диалози.

Apple създаде нова структура за разработка, наречена Модели на основата който осигурява програмен достъп до тези оптимизирани за устройства LLM. За разработчика, процесът може да се сведе до три реда код: импортиране на структурата, създаване на сесия и изпращане на подкана към модела.

Освен генерирането на обикновен текст, структурата поддържа това, което те наричат Насочено генериранеПо принцип можете да дефинирате типове данни в приложението си и да ги маркирате като „генерируеми“, добавяйки описания на естествен език и ограничения на стойностите. След това моделът попълва вашите структури директно, без да се налага да се борите с JSON или ръчни схеми.

Друга ключова способност е извикване на инструментВместо просто да генерира текст, моделът може да реши кога да извика дефинирани от вас функции: проверка на данни в реално време, четене на календар, достъп до информация за приложението или изпълнение на системно действие. Това разширява знанията на модела отвъд това, което е знаел по време на обучението си.

Трябва да се отбележи обаче, че тези модели на устройството Те нямат толкова знания или актуални данни, колкото мегамодел в център за данни.Тяхното обучение е замразено във времето, така че за случаи, които изискват прясна или много специфична информация, е препоръчително да се допълни с външни източници, използвайки облачни инструменти или услуги.

Apple API, задвижвани от машинно обучение

Как да започнете с Apple Intelligence на вашия iPhone

В допълнение към моделите Foundation, Apple от години включва Специализирани API, задвижвани от машинно обучение за специфични задачи, често само с няколко реда код.

В областта на компютърното зрение има ВизияС над 30 API за разбиране на изображения и видео: разпознаване на лица, проследяване на обекти, класификация, разпознаване на текст и др. В последните версии Vision добави ключови подобрения, като например по-интелигентно разпознаване на документи (групиране на параграфи, заглавия, таблици...) и начин за откриване на петна от лещата който открива замърсявания, които могат да съсипат снимка.

За текст и естествен език, Apple предлага Естествен езиккоето ви позволява да идентифицирате езика, да разделяте изречения, да обозначавате части на речта и да откривате именувани обекти (хора, места, организации и др.). Съществува и рамката превод, фокусиран върху превода на текстове между множество езици, много полезен, когато искате да предложите многоезични изживявания, без винаги да разчитате на външни услуги.

В аудиото и звука има два важни компонента: Звуков анализ, за класифициране на звукови категории (сирени, стъпки, околни звуци и др.) и РечЗа разпознаване и транскрипция на реч, Speech се е развил от SFSpeechRecognizer, предназначен предимно за кратки диктовки, до новия API. SpeechAnalyzerпроектиран за по-дълъг и по-гъвкав звук.

SpeechAnalyzer работи директно с аудио буфери, които се преобразуват в нов модел за преобразуване на реч в текст По-бърз и по-адаптивен, идеален за конференции, срещи, подкасти или дистанционни разговори. Всичко това все още се случва предимно на устройството, което е в перфектно съответствие с акцента на Apple върху поверителността.

Системни генеративни API-та: изображения, интелигентни отговори и други

Един от най-лесните начини да добавите генеративен изкуствен интелект към приложенията си е да разчитате на API-тата, които вече са интегрирани в операционната система, без да е необходимо да се свързвате с външни услуги или да управлявате ключове на трети страни.

Например, започвайки с iOS 18.4, рамката Image Playground включва класа Създател на изображенияРазрешаването Генериране на изображения с помощта на код Започвайки с описателен текст и стил, вие създавате създателя, изпращате подканата и получавате варианти, които след това можете да показвате или комбинирате, както желаете, в приложението си.

В областта на съобщенията, Apple е внедрила API на Smart Отговор, което дава възможност интелигентни отговори, генерирани от клавиатурата Използване на контекста на разговор. За да се използва, приложението предоставя ConversationContext (за съобщения или имейл), преди да се появи клавиатурата, а на потребителя се показват предложения като бързи алтернативи.

В чатовете за незабавни съобщения избраният отговор се вмъква директно в разговора. В имейл приложенията обаче той е делегиран на метод като вмъкване на предложение за въвежданекоето позволява на приложението да генерира по-дълги или по-персонализирани отговори въз основа на това първоначално предложение.

Много от тези възможности се „наследяват“ почти автоматично при използване на стандартни контроли на текстовия интерфейс От системата: Ако приложението ви показва оригинални textView-и или полета за писане, Apple Intelligence активира Writing Tools, Genmoji или Image Playground с малко или никаква допълнителна настройка.

Как да обучаваме и адаптираме модели: Core ML, Create ML и свързани инструменти

Когато API-тата от високо ниво не са достатъчни, разработчиците могат да прибегнат до Core ML, базовата рамка за внедряване на модели за машинно обучение на устройства на AppleCore ML работи с модели в собствен формат, който описва входове, изходи, архитектура и научени тегла.

Apple поддържа тази информация на developer.apple.com каталог на отворени модели, вече конвертирани в Core MLорганизирани по категории, с описания на възможности, варианти и информация за очакваната производителност на различни устройства. Освен това Apple си сътрудничи с общността чрез своето пространство на Прегърнато лицекъдето се публикуват модели, дефиниции на PyTorch и потоци за обучение и настройка.

За да конвертирате модели от рамки като PyTorch или TensorFlow във формат Core ML, има Основни инструменти за машинно обучениеТова е набор от помощни програми, които не само преобразуват архитектурата, но и прилагат оптимизации за изпълнение на чипа на Apple. Те включват сливане на операции, елиминиране на излишни изчисления и техники за компресия, като квантуване, подрязване и корекции след обучение.

Тези техники за компресия са незадължителни и ви позволяват да изследвате различни балансира между размера на модела, производителността и точносттаМожете да опитате по-леки конфигурации за устройства с по-малко памет или по-тежки, но по-точни модели за среди с повече ресурси.

За тези, които не искат веднага да се впускат в ниско ниво на код, Apple предлага Създайте ML, приложение и рамка, която ви позволява да обучавате персонализирани модели използвайки собствени данни. От класификатор на изображения, който се интегрира с Vision, до текстови етикетиращи устройства, специално за естествен език, включително модели, които разширяват възможностите на Vision Pro за проследяване на обекти в 6 степени на свобода в пространствени преживявания.

Xcode, внедряване и производителност на модели на Apple Silicon

След като вашият модел бъде конвертиран или обучен във формат Core ML, Xcode става вашият команден център. IDE позволява разгледайте основните характеристики на моделаРазгледайте пълната му структура и измерете производителността му на конкретни устройства, свързани към Mac.

От Xcode можете да видите очаквана латентност на прогнозирането, време за зареждане и къде се изпълнява всяка операция (CPU, GPU или Neural Engine). Най-новите версии дори предлагат графичен изглед на цялата архитектура, където е възможно да се задълбочите във всяка операция и да откриете пречки или възможности за оптимизация.

Чрез интегриране на модела във вашия проект, Xcode генерира защитен интерфейс от тип в Swift, специфичен за този моделТова значително опростява кода за извод. Вместо да се обработват генерични тензори, се работи с по-описателни и безопасни по време на компилация типове.

По време на изпълнение, Core ML разпределя натоварването между процесора, графичния процесор и невронния енджин. автоматично, опитвайки се да увеличи максимално възможностите на чипа. Това позволява дори относително големи модели да работят с разумна латентност и ниска консумация на енергия.

Когато се нуждаете от още по-фин контрол върху изпълнението, рамки от по-ниско ниво, като Метал и ускорение/BNNSGraphкоито ви позволяват да свързвате Core ML модели с персонализирани графични зареждания или обработка на сигнали в реално време със строг контрол на паметта и латентността.

MLX: експериментиране с големи модели на Mac със силиконов чип на Apple

В областта на най-съвременните изследвания, Apple стартира MLX, рамка за числени изчисления и машинно обучение проектиран от собствени изследователи и разпространяван като проект с отворен код.

MLX е проектиран така, че разработчиците и учените да могат Разглеждайте и изпълнявайте модели с големи езици (LLM) и други напреднали архитектури ефективно на Mac с Apple Silicon. Това позволява тестване на нови техники за извод, фина настройка или разпределено обучение, без винаги да се разчита на големи външни клъстери.

Благодарение на подкрепата си за Унифицирана архитектура на паметта на Apple SiliconMLX използва много специфичен модел на програмиране: масивите не са обвързани с конкретно устройство; операциите са тези, които решават дали ще се изпълняват на процесора или графичния процесор, като могат да работят паралелно върху един и същ буфер без допълнителни копия.

От командния ред можете да стартирате едноредов LLM изводНапример, може да се използва за генериране на код, класифициране на текст или създаване на резюмета с голяма дължина на контекста (1.024 токена или повече). Освен това, MLX общността в Hugging Face вече предлага стотици адаптирани шаблони, готови за използване само с един ред код.

MLX е наличен в Python, Swift, C++ и CИ общността създава връзки за повече езици, което улеснява интегрирането във всякакви проекти. За тези, които участват в изследвания на изкуствен интелект, това е много удобен начин да останат близо до най-новите технологии, без да напускат екосистемата на Mac.

Как Apple изследва поверителността в ИИ: синтетични данни и диференциална поверителност

Едно от най-големите предизвикателства на Apple в областта на изкуствения интелект е, че... Ангажиментът за поверителност затруднява събирането на реални потребителски данни. за обучение на големи модели. Въпреки това, компанията се нуждае от информация за това как пишем имейли, какви подкани използваме или как взаимодействаме с Genmoji, за да подобри Apple Intelligence.

В скорошна публикация от Machine Learning Research, Apple описва подробно подход към Учете се от данни за употреба, без да имате директен достъп до лично съдържаниеНомерът е да се комбинират синтетични данни, обработка на устройството и техники за диференциална поверителност.

Процесът, приложен например към имейл, работи по следния начин: Apple генерира множество синтетични имейли по общи теми (покани, потвърждения, известия и др.), с вариации в езика, стила и дължината. За всяка от тях се създава вграден файл с векторни изображения.

Тези файлове се изпращат до малък брой iPhone-и, принадлежащи на потребители, които доброволно са активирали анализа на устройствата. Самият iPhone избира извадка от реалните имейли на потребителя, генерира нейните вграждания и ги сравнява със синтетичните.решавайки кои са най-сходни, без да показват на Apple действителните текстове.

Чрез диференциална поверителност, Apple събира само кои синтетични вложки са били избирани най-често на много устройства и с добавен статистически шум, за да се предотврати проследяването на всеки избор до конкретен човек. С този набор от данни компанията може да подобри синтетичните данни и да обучи модели за обобщаване и писане, които по-точно отразяват употребата в реалния свят, без да вижда нито един автентичен имейл.

Genmoji, Image Playground и непрекъснато подобрение с диференциална поверителност

Apple Intelligence Image Playground

Същият подход важи и за по-игриви функции, като например GenmojiИнструментът, който създава персонализирани емоджита от описания. Apple използва диференциална поверителност за Идентифициране на популярни модели на подканиНо само когато те са били използвани от стотици хора, което изключва всяка уникална или потенциално разпознаваема индикация.

Apple гарантира това Не вижда Genmoji, свързано с конкретно устройство.че данните пристигат анонимизирани, че се добавя случаен шум, за да се защити самоличността на потребителите, и че не са свързани с IP адреси или идентификатори на акаунти.

С тези техники компанията може да усъвършенства моделите, които захранват Genmoji и други генеративни системи, подобрявайки резултатите, без да има достъп до отделни подкани. Това е сложен баланс между получаването на полезна обратна връзка и запазването на поверителност.

Идеята на Apple е разширете използването на диференциална поверителност и синтетични данни към повече области на Apple Intelligence: от Image Playground до създаване на спомени, инструменти за писане или визуален интелект, който анализира снимки и видеоклипове, за да предлага функции за търсене или контекст.

Само тези, които са решили да участват в тези процеси, обаче го правят. изберете да изпращате анализи на устройствотоИ всеки може да деактивира тази опция, ако предпочита да не допринася за този тип изследвания.

Примери за употреба в сензори и дейности: сливане на данни с LLM

Друга интересна линия на изследване от Apple се върти около това как... LLM могат да комбинират информация от сензори като микрофони и акселерометри да разпознава човешките дейности, без да се обучава специфичен модел за всяка задача.

В скорошно проучване Apple изследва това, което те наричат "късно сливане"Идеята е, че аудио данните и данните за движение първо се обработват отделно с по-малки модели, генерирайки текстови описания и междинни етикети; след това по-голям LLM получава тези обобщения и решава каква дейност се извършва.

Използвайки набор от данни за ежедневни дейности (готвене, пране, спортуване и др.), изследователите наблюдават, че Моделите биха могли да идентифицират какво прави човек с много по-голяма точност, отколкото случайно.без да са виждали точно тези дейности по време на обучението си.

Този подход има няколко предимства: намалява нуждата от създайте нов модел за всеки тип действиеТова позволява работа с данни, които може да са шумни или неясни, и подобрява поверителността, като работи с производни текстови описания, а не със суров звук или пълни следи от движение.

В екосистемата на Apple тези видове техники биха могли да се използват за Прецизиране на разпознаването на тренировки на Apple Watchобогатете показателите за здравето или дори внедрете нови функции на iPhone, които откриват модели на активност, без да разчитате на персонализирани решения за всеки конкретен случай.

Как се организират екипите по изследвания на машинното обучение на Apple

Зад всички тези продукти, рамки и експерименти стоят високоспециализирани екипи, разпръснати в различни области на изследванията в областта на машинното обучение, след промени, като например Маршът на Джон ДжанандреаApple поставя значителен акцент върху разнообразието от профили, кариерни пътища и личен опит като двигател на иновациите.

Един от най-важните блокове е този на Инфраструктура за машинно обучениеТози екип е отговорен за изграждането на инфраструктура за изчисления, съхранение и анализи, която поддържа мащабни проекти с изкуствен интелект. Тук работят бек-енд, платформени и системни инженери, както и специалисти по данни, които проектират инструменти за обучение, оценка и внедряване на модели в разпределени среди.

Друга ключова група е тази, която Дълбоко обучение и обучение с подсилване, съставена от изследователи и инженери, които обхващат почти целия съвременен спектър от напреднал изкуствен интелект: контролирано и неконтролирано обучение, генеративни модели, мултимодално обучение, дълбоко и обратно обучение с подсилване, теория на решенията и теория на игрите.

Целта на тези отбори не е само да останат на хартия, а да внедрят своите постижения в реални и мащабируеми продукти, от подобрения в Siri до нови възможности във Vision Pro или интелигентни функции в системните приложения.

Накрая, площта на Технологии за обработка на естествен език и реч Той обединява специалисти по естествено езиково програмиране (NLP), машинен превод, разпознаване на обекти, системи за въпроси и отговори, сегментиране по теми и разпознаване на реч. Те работят с големи обеми от многоезични данни и методи за дълбоко обучение, за да направят интерфейсите на Apple все по-естествени на множество езици.

Ролята на Mac с Apple silicon в научноизследователската и развойна дейност

Mac-овете със силикон на Apple са се утвърдили като много атрактивни платформи за разработчици и изследователи на изкуствен интелект които искат да експериментират локално с големи модели, без да създават собствен клъстер.

Благодарение на комбинацията от процесор, графичен процесор и невронна система, плюс унифицирана памет, MacBook Air или Mac Studio може... изпълняване на LLM изводи и обучение на модерирани модели С разумна консумация на енергия и липса на сложни конфигурации, това е много удобно подобрение от това винаги да разчитате на външни сървъри за бързо прототипиране или тестване на нови архитектури.

Тези устройства също се съчетават перфектно с Философията на Apple за поверителностТе позволяват тестване на техники, модели и цялостни тръбопроводи с локални данни, без да се качва чувствителна информация в облака, което е много ценно в области като здравеопазване, производителност или комуникации.

Освен това фактът, че Всички Mac компютри с Apple silicon споделят една и съща архитектура Това значително опростява внедряването на решения: можете да разработвате на лаптоп и да мащабирате към по-мощни машини почти без промени в кода, възползвайки се от всички системни оптимизации.

Ако към това добавите инструменти като MLX, Core ML, Create ML и интеграциите с Xcode, става ясно защо. толкова много разработчици на изкуствен интелект Те се обръщат към Mac като основна работна среда за експериментиране с машинно обучение.

Цялата тази екосистема – Apple Intelligence, Foundation Models, MLX, Core ML, Vision, Speech, изследователските екипи и манията по поверителността чрез изпълнение на устройства и техники като диференциална поверителност – очертава много ясна стратегия: Apple иска изкуственият интелект да бъде полезен, повсеместен и мощен, но също така дискретен, отговорен и дълбоко уважаващ данните на хората, които го използват всеки ден..

Apple назначава нов ръководител на отдела за изкуствен интелект с опит в Google и Microsoft
Свързана статия:
Apple прави ход в областта на изкуствения интелект и назначава Амар Субраманя за свой нов глобален ръководител

Хей, сири
Може да ви заинтересува:
Над 100 забавни въпроса, които да зададете на Siri
Следвайте ни в Google Новини