Ինչ է նշանակում Nvidia-ի նոր Text-to-3D-ը ճարտարագիտության և արտադրանքի նախագծման համար

tl; drԳեներատիվ AI-ն զարգանում է հուզիչ տեմպերով: Nvidia-ի վերջին ալգորիթմը տեքստը վերածում է 3D ցանցի երկու անգամ ավելի արագ, քան հազիվ 2 ամիս առաջ հրապարակված նախագծերը: Սա նշանակում է, որ տեխնիկական հնարավորություններն այժմ արդեն գերազանցում են դրանց հետ աշխատելու մեր հնարավորությունները։

Անցյալ շաբաթ թուղթ Nvidia-ի գիտնականների կողմից ցուցադրվել է էքսպոնենցիալ արագությունը, որով զարգանում է գեներատիվ AI տարածությունը: Գործունեության այս պայթյունը, որը հատկապես տեսանելի է վերջին 9 ամիսների ընթացքում, ազդեցություն կունենա կյանքի յուրաքանչյուր հատվածի վրա, հատկապես արտադրանքի նախագծման, ճարտարագիտության և արտադրության վրա: Փոփոխությունները կազատեն արդյունաբերությունը գաղափարների փոխանցման ձևի կառուցվածքային սահմանափակումներից, կուժեղացնեն նորարարության ավելի արագ ցիկլերը և, ի վերջո, թույլ կտան նրան իրականացնել իր կայունության խոստումները:

Ցանցերի օրինակ Nvidia Research-ի Magic 3D ալգորիթմներից՝ դրանք ստեղծելու համար օգտագործվող հուշումներով:

Nvidia Deep Imagination Research

Տարիներ շարունակ ասելով, որ արհեստական ինտելեկտը հիմնովին հեղափոխություն կկատարի մեր աշխատանքի մեջ, քչերն էին ակնկալում, որ ստեղծագործական հատվածն իր առաջին զոհերից է լինելու: 3 թվականին GPT-2020-ի մարդանման տեքստային գեներատորի հայտնվելը հնարավորություններն ավելի սուր ուշադրություն դարձրեց: Այդ ժամանակվանից ի վեր դա վայրի զբոսանք էր. DALL-E (տեքստից-պատկեր), Whisper (խոսքի ճանաչում) և վերջին անգամ Stable Diffusion (տեքստից պատկեր) ոչ միայն ավելացրեցին խոսքի և տեսողական AI գործիքների հնարավորությունները, այլև նվազեցրեց դրանց օգտագործման համար պահանջվող ռեսուրսները (175 միլիարդ պարամետրից GPT-3-ի համար մինչև 900 միլիոն կայուն դիֆուզիայի համար):

Stable Diffusion-ի չափը նշանակում է 5 Գբ-ից պակաս սկավառակի տարածություն, որը կարող է աշխատել ցանկացած նոութբուքի վրա: Ոչ միայն դա; ի տարբերություն OpenAI-ի (որը հիմնականում ֆինանսավորվում է Microsoft-ի կողմից և հրապարակում է GPT-3, DALL-E և Whisper), Stable Diffusion-ը բաց կոդով է, ինչը նշանակում է, որ մյուսները կարող են շատ ավելի պատրաստակամորեն հիմնվել իր գիտելիքների վրա: Դա նշանակում է, որ մենք տեսնում ենք միայն նորարարական ցիկլի սկիզբը. դեռ շատ ավելին է սպասվում, ինչպես ցույց է տալիս Nvidia-ի աշխատությունը:

Stable Diffusion-ի աջակիցները (stability.ai) հետագայում տուրբո լիցքավորում են այս միտումը՝ տրամադրելով տեխնոլոգիական և ֆինանսական դրամաշնորհներ այլ թիմերի, որոնք հետախուզումը տանում են դեպի նոր ուղղություններ: Բացի այդ, բազմաթիվ նախագծերը գործիքները հասանելի են դարձնում օգտվողների ավելի լայն շրջանակի համար: Դրանց թվում են պլագինները Blender-ի համար, որը բաց կոդով նախագծման գործիք է, և Adobe-ի սեփական Photoshop համարժեքը: Գործիքների API-ի ամբողջական հասանելիությունը ֆինանսավորվում է մեծ վենչուրային կապիտալ դոլարներով, ինչը նշանակում է, որ հարյուր միլիոնավոր ծրագրակազմ մշակողներ, ոչ միայն մի քանի հարյուր հազար տվյալների ինժեներներ, այժմ կստեղծեն իրենց սեփական գործիքներն այս ալգորիթմների վրա:

Խոսքը, պատկերները և տեքստը առաջին ուղղաձիգներից են, որոնք խաթարվում են այս տեխնոլոգիաների պատճառով: Բայց 3D-ը հետ չի մնում: Նիշային գեներատիվ արվեստից դուրս, մուլտֆիլմերը կիրառման ակնհայտ առաջին կետն են: Արդեն կա Pokémon գեներատոր, որը հիմնված է Stable Diffusion-ի վրա: Հաջորդը տեսողական էֆեկտներն ու ֆիլմերն են: Սակայն շատ այլ ոլորտներ, ամենայն հավանականությամբ, կխաթարվեն, այդ թվում՝ ինտերիերի դիզայնը, որի գինը գլխավորում է Interiorai.com-ը:

Այս ամբողջ ոգևորության մեջ նորամուծությունները Դիզայն և ճարտարագիտություն կիրառելը կարծես թե մտածված է: Այնուամենայնիվ, դա, ամենայն հավանականությամբ, կլինի այն տարածքը, որը, ի վերջո, առավել էական ազդեցություն է կրել: Իհարկե, կան սկզբնական մարտահրավերներ. Առաջինը, Stable Diffusion-ը և նրա հայրենակիցները դեռ այնքան էլ ճշգրիտ չեն: Դա խնդիր չէ մուլտֆիլմերի համար, բայց դա մեծ մարտահրավեր է տեքստը լիարժեք 3D երկրաչափությունների վերածելու ցանկացած փորձի համար, որն օգտագործվում է արդյունաբերական համատեքստում: Դա այն տարածքն է, որն ունեցել է որոշակի նորածին հետաքրքրություն (101 թվականին Իսրայելում մեկնարկել է Bits2015 կոչվող նախագիծը): Սա կարող է լինել արդյունաբերության սուրբ գրավը, բայց կան բազմաթիվ միջանկյալ մարտահրավերներ, որոնք կարող են շատ ավելի հեշտ լուծել: Դրանք ներառում են օբյեկտների ճանաչման բարելավում (Yolo ալգորիթմն արդեն օգտագործվում է մեծ արդյունավետությամբ), ինչը կբերի բարելավված մեջբերումների և անոտացիաների՝ որակի բարելավման և սխալների նվազեցման: Փլագինները նաև պետք է դյուրին դարձնեն Generative AI-ի օգտագործումը հիմնական ձևավորումներ մշակելու համար (Primitives), որոնք այնուհետև կարող են խմբագրվել դիզայնի գործիքներում՝ ըստ պահանջի հանդուրժողականությունը բարելավելու համար: Դա մոտեցում է արդեն իսկ օգտագործված Altair's Inspire-ում, որն օգտագործում էր վերջավոր տարրերի վերլուծությունը նույնն անելու համար: Այս պրիմիտիվները կարող են նաև ծառայել որպես ծանոթագրված մոդելների սինթետիկ տվյալների բազա, որոնցից պակաս կա 3D CAD արդյունաբերության մեջ: Physna-ի գործադիր տնօրեն և հիմնադիր դա մատնանշում է հոդվածում մանրամասնելով իրենց փորձերը՝ օգտագործելու այս նոր մեթոդները՝ մանրամասն 3D ձևավորումներ ստեղծելու համար, ինչը նաև ընդգծում է այս ալգորիթմները վարելու համար սինթետիկ տվյալների օգտագործման մի շարք թակարդներ: 3D գծագրերից 2D ձևավորումներ ստեղծելը կիրառման ևս մեկ պոտենցիալ տարածք է, ինչպես և խելացի CAM-ը. գործիքների մաշվածության գրադարան՝ մշակման լավագույն ռազմավարությունները որոշելու համար:

Այս մարտահրավերները կարևոր և շահավետ են իրենց համար լուծելու համար: Այնուամենայնիվ, դրանց հիմնական ազդեցությունը կլինի այն, որ օգնի զարգացնել գաղափարից մինչև դիզայն ուղին, ի վերջո նվազեցնելով 3D ձևավորումների կախվածությունը մտադրությունը հաղորդելու համար: Դիզայնը, լինի դա 2D, թե 3D, ծառայել է որպես հաճախորդների կարիքները վերջնական արտադրանքի փոխակերպման հիմնական միջոց: Դա սահմանափակում է արդյունաբերությունը, քանի որ այս նմուշները ծառայում են որպես սև արկղ, որտեղ պահվում են բոլոր արժեքավոր հաճախորդների պատկերացումները, արտադրական սահմանափակումները և ընկերության նպատակները, որոնք չեն կարող անջատվել, բայց միայնակ նույնականացվել: Սա նշանակում է, որ երբ ինչ-որ բան փոխվում է, դիզայնը հարմարեցնելը գրեթե անհնար է: Սա է պատճառը, որ արտադրական նորամուծությունները, ինչպիսին է 3D տպագրությունը, այդքան երկար ժամանակ է պահանջում կարճաժամկետ ներդրողներին ընդունելու և մշտապես հիասթափեցնելու համար: Ինքնաթիռը կազմող բաղադրամասերը «սահմանված են» նախագծման պահից՝ չնայած 20-ամյա և ավելի արդյունավետ կյանքին: Նորարարությունների գրեթե ոչ մի շրջանակ չկա. դրանք պետք է սպասեն հաջորդ սերնդի մեկնարկին:

Մեկ սահմանափակում փոխելու հնարավորությունը և թույլ տալով այնպիսի ալգորիթմ, ինչպիսին է Stable Diffusion-ը, վերականգնել դիզայնի և արտադրության պարամետրերը, զգալիորեն կարագացնի նոր նորարարությունների ընդունումը և թույլ կտա մեզ ավելի արագ, ավելի թեթև, ավելի լավ կատարողական արտադրանք ստեղծել: Ինչպես անում են Formula 1-ում կամ Systems Design-ում, ապագա ինժեներները կգործեն որպես սահմանափակումների մենեջերներ, որոնք կարող են բառերով և տվյալների աղբյուրներին հղումով արտահայտել, թե որն է արտադրանքի նպատակն ու սահմանափակումները:

Առանց այս կերպ արագացնելու նոր և գոյություն ունեցող ապրանքների ինժեներական գործընթացը, մենք գրեթե չունենք միջոցներ՝ հասնելու կայունության հավակնոտ նպատակներին, որոնք մենք պետք է ինքներս սահմանենք: Դա անելու համար մենք նախ պետք է պայմանավորվենք լեզվի շուրջ, որը մենք կարող ենք օգտագործել դիզայնից դուրս հաղորդակցվելու համար: Այս նոր իմաստային մոդելը վերը նշված նորարարությունների ակնհայտ բացն է: Մի շարք ընկերություններ արդեն սկսել են դրա փորձարկումները, ինչպես, օրինակ nՏոպոլոգիա դաշտերի իր հասկացություններով. Եվ այնուամենայնիվ, փոփոխության տեմպերը դանդաղ են՝ ի տարբերություն այն ալգորիթմների, որոնց սնուցում է իմաստային մոդելը: Հաղորդվում է, որ Nvidia-ի նոր ալգորիթմը երկու անգամ ավելի արագ է, քան DreamFusion, հրապարակվել է 2 ամիս առաջ։ Արտադրական և ինժեներական ընկերությունները պետք է աշխատեն իրենց գաղափարները նոր, ապագան ապացուցող ձևերով յուրացնելու վրա հիմա, որպեսզի առավելագույնս օգտվեն գեներատիվ AI-ի այս պայթյունից: Ալգորիթմների փոփոխության արագությունը ևս մեկ անգամ ցույց տվեց, որ Մորզեի օրենքը կիրառվում է ամենուր, երբ գործիքները թվայնացվում են: Մարտահրավերը մնում է մեր մարդկային անկարողությունը՝ ընդունելու այս փոփոխությունը և կիրառելու հաղորդակցման նոր մեթոդներ, որոնք կարող են բացել իրենց ներուժը՝ չնայած առաջադրանքի հրատապությանը:

Աղբյուր՝ https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/