
ضمیمه دانش امروز روزنامه اطلاعات نوشت: چت جی پی تی (ChatGPT)در سال 2023 راه اندازی شد. این ابزار هوش مصنوعی آنلاین بهقدری به شهرت رسید که حتی عموها و عمههای پا به سن گذاشته ما که حتی تلفن همراه هم ندارند یا استفاده از آن برایشان دشوار است نیز از وجود آن باخبر شدهاند! همچنان که شرکت Open AIبه بهتر کردن و پالایش کردن قابلیتهای چت جی پی تی ادامه میدهد؛ رقیبی برای این فرزند اعجوبه پیدا شده است که آمادگی گرفتن گوی سبقت از آن را دارد.
مدت کوتاهی پس از راهاندازی چت جی پی تی، گوگل از وجود «بارد» (Bard)خبر داد. بارد رقیب چت جی پی تی است و قادر به انجام هر کاری است که چت جی پی تی میتواند انجام دهد، با این تفاوت که بارد قدرت بزرگترین موتور جستجو یعنی گوگل را در اختیار دارد.
اکنون شرکت گوگل با پروژهای جدید یک گام بیشتر برداشته است و ابزاری دیگر به نام «گوگل جمینی» (Google Gemini)را ساخته است که در مرحله راهاندازی است و به نظر میرسد موفقیت عملکرد آن از چت جی پی تی بیشتر باشد.
جمینی یک مدل هوش مصنوعی جدید و قدرتمند محصول شرکت گوگل و Alphabetشرکت «والد گوگل» است؛ گر چه «گوگل دیپ مایند» نیز کمک زیادی به ساخت آن کرده است. جمینی پیشرفتهترین مدل هوش مصنوعی محسوب میشود که گوگل تابهحال ساخته است و علاوه بر متن، عکس، ویدئو و محتوای صوتی را نیز میشناسد.
جمینی بهعنوان یک مدل چند وجهی قادر به انجام عملکردهای ریاضیاتی پیچیده و حل مسائل فیزیک و انجام وظایف مختلف در حوزههای دیگر است. همچنین میتواند به زبانهای برنامهنویسی مختلف کدهایی با کیفیت بالا تولید کند.
وقتی نام شرکت Open AIبه میان میآید، همه به یاد چت جی پی تی میافتند. اما لازمه کار کردن این ابزار تغذیه شدن از یک مدل زبانی بزرگ به نام «جی پی تی 4» است که با میلیاردها مجموعه داده از سراسر اینترنت تغذیه شده و آموزشدیده است تا تصاویر، متون، مفاهیم و بسیاری از فاکتورهای دیگر را درک کند. در مورد گوگل، این جمینی است که این کار را انجام میدهد؛ موتوری که برنامههای هوش مصنوعی را مانند بارد به اجرا در میآورد.
جمینی میتواند محتواهای مختلف ازجمله متن، کد، فایل صوتی، عکس و ویدئو را تعمیم دهد و درک کند. مانند جی پی تی 4، جمینی را با مجموع دادگان بسیار بزرگ و گستردهای آموزش دادهاند که شامل کتابها، مقالات، مخازن کد، موسیقی و انواع دیگر رسانه است.
همه این دادهها دستهبندی و به بخشهای کوچکتر تقسیمبندی شدهاند و به شکلی درآمدهاند که برای جمینی قابل فهمتر باشند. این مدل سپس روابط بین واژهها و رسانههای مختلف را درک میکند و یاد میگیرد چطور به دستورها، پرسشها و پیشنهادها واکنش نشان دهد یا آنهارا پاسخ دهد.
شاید بخواهیم بدانیم چگونه میتوانیم گوگل جمینی را بهطور رایگان امتحان کنیم. دو راه برای تست کردن آن وجود دارد که یکی از آنها از دیگری قابل دسترستر است. برای بیشتر کاربرها آسانترین راه این است که وارد چت بات بارد شوند یعنی در آن log inکنند.
این مدل در حال حاضر از طریق گوگل بارد و گوگل Pixel 8قابل دسترس است. اگر کاربری تابهحال از گوگل بارد استفاده نکرده است، میتواند بهراحتی یک حساب کاربری ایجاد کند و استفاده از آن را بهطور مستقیم شروع کند. نسخه کامل گوگل جمینی در آیندهای نزدیک از طریق بارد در دسترس قرار خواهد گرفت.
اما نسخه تست جمینی چه قابلیتهایی دارد؟
هنوز محدودیتهایی در این مدل وجود دارد و اگر چه جمینی آن را هوشمندتر کرده است، نباید انتظار داشت که هر بار پاسخهای بیعیب و نقصی تحویل دهد و هنوز خطا و اشتباه دارد.
مهندسین گوگل به نسخه به روز شده بارد وظایف گوناگونی را دادند تا انجام دهد. این نسخه با ایجاد کدهای پشت سر هم درک منطق و نشان دادن کمی هوش و ذکاوت بیشتر آنهارا بهخوبی انجام داد؛ اما در همه موارد دقیق نبود.
برای مثال وقتی تصویر پنج کفش خاکستری که رویهم چیده شده بودند به آن نشان داده شد، 27 جفت کفش را تشخیص داد یعنی 49 کفش بیشتر از تعدادی که در تصویر به آن نشان داده شده بود.
همچنین این مدل اظهار کرد که کفشها به شکل یک هرم بزرگ رویهم انباشته شده بودند و رنگهای مختلفی داشتند که هیچکدام از اینها درست نبود. دسترسی به جمینی راه دومی هم دارد. برای هر کاربری که ضعیفترین نسخه جمینی به نام Google Pixel 8 Pro را در اختیار داشته باشد، نسخه Gemini Nanoاز طریق چند ویژگی قابل دسترس است که بیشتر با اپلیکیشن هایWhatsAppو Google Keyboardکار میکند.
جمینی چه کارهایی را میتواند انجام دهد؟
در هفتههای اخیر شرکت گوگل به طرزی خستگیناپذیر در تلاش بوده است تا با انتشار ویدئوهای مختلف از قابلیتهای جمینی و تعریف و تمجید از مهارتهای آن نسبت به رقبایش، این فناوری تازه خود را به نمایش گذارده و معرفی کند. اگر چه آن چه از تواناییهای جمینی گفته و نمایش داده میشود جذاب است و کاربرها را ترغیب میکند اما دانستن اینکه جمینی چه بازده و عملکردی از خود نشان خواهد داد آسان نیست.
در یک ویدئوی وایرال شده از گوگل شخصی در حال ترسیم کردن اشیاء مختلف دیده میشود. جمینی میتواند در زمان بیدرنگ توصیف کند چه چیزهایی روی کاغذ ترسیم شدهاند. بهتر از آن، جمینی به پرسشهایی که درباره اشیاء ترسیم شده پرسیده میشود پاسخ میدهد، به زبانهای مختلف صحبت میکند و حتی از تصاویری که به آن نشان داده میشود بازی میسازد.
بااینوجود اگر چه این ویدئو بهطور قطع بسیار جالبتوجه است اما یک نکته گول زننده در آن وجود دارد و آن این است که برخلاف آن چه در ویدئو میبینیم جمینی در حقیقت به پرسشهایی که در زمان بیدرنگ به آن داده میشود پاسخ نمیدهد بلکه پرسشها بهطور جداگانه و با متن بیشتری به آن داده میشوند.
همچنین در ویدئویی دیگر جمینی را میبینیم که از تصاویر ترکیب شده و درهم فیلمهای سینمایی مختلف عنوان فیلمها را تشخیص میدهد. برای مثال، با دیدن تصویر پنکیک و گوشت سرخشده در کنار یکی از افراد حاضر در میان جمعیت یک مهمانی میتواند نام فیلم سینمایی را بهدرستی اعلام کند که «کلوپ صبحانه» نام دارد و کارگردان آن «جان هیوز» است.
همچنین میتواند حدس بزند چه لباسهایی در چه مواقعی باید پوشیده شوند. برای مثال، میداند پالتوی بلند برای فصل سرد است. دیگر اینکه میتواند روابط بین کلمات و تصاویر مختلف را پیدا کند و تکالیف ریاضی فرزند دانشآموز خانواده را توضیح دهد. سرانجام اینکه چون جمینی با کلمات، عکسها، ویدئوها، کدها و بیشتر اَشکال محتوای دیجیتالی آموزشدیده است، تواناییهای بیشماری دارد.
گوگل جمینی در برابر جی پی تی 4
قابلیتهای ذکر شده درباره جمینی تازه نیستند. این همان کاری است که شرکت Open AIبا ساخت جی پی تی 4 انجام داده است. حتی خود گوگل نیز در گذشته این قبیل مدلها را عرضه کرده است. بااینحال، طبق ادعای گوگل آنچه جمینی را از سایر مدلها متمایز میکند این است که از همه آنها بهتر است.
جمینی از میان 32 مقوله تستی که برای محک زدن سطح معلومات، استدلال، ادراک و غیره استفاده شدند در 30 مورد جی پی تی 4 را مغلوب کرد. در حقیقت، با امتیاز 90 درصد، جمینی نخستین مدلی است که در یک تست درک زبان چند وظیفهای حجیم از کارشناسهای انسانی بهتر عمل کرده است. این تست شامل مجموعهای از 57 موضوع در علوم و مباحثی چون ریاضیات، فیزیک، تاریخ، حقوق، اخلاق، پزشکی و مجموعهای از وظایف مربوط به میزان معلومات و حل مسأله بود.
به دلیل اینکه گوگل خودش این تستها را طراحی و بر آنها نظارت میکند، به هیچ طریقی نمیتوان حدس زد جمینی در خارج از تستهای کنترل شدهای ازایندست چه عملکردی از خود نشان خواهد داد. برخلاف Open AIکه ابزارهایش را بلافاصله پس از ساخت در دسترس عموم قرار میدهد، گوگل ترجیح میدهد با تأخیر این کار را انجام دهد.
بهعلاوه، تمامی این آمار جالبتوجه از عملکرد جمینی با جمینی اولترا به دست آمدهاند که قدرتمندترین نسخه جمینی است. گوگل قصد دارد سه نسخه مختلف از مدل جمینی را عرضه کند:
Ultra, Proو Nano.
اگر واقعگرایانه نگاه کنیم، بیشتر مردم دنیا از دو نسخهای که هوشمندی کمتری دارند و احتمالاً ارزانتر هستند استفاده خواهند کرد. هنوز معلوم نیست این مدلها چه تفاوتی با یکدیگر خواهند داشت اما گوگل شرح مختصری از آنها داده است.
گوگل، جمینی را بهعنوان یک مدل انعطافپذیر توصیف میکند که قابلیت اجرا روی هر چیزی را دارد، از مراکز داده خود شرکت گوگل گرفته تا تلفنهای هوشمند و وسایل دیجیتالی قابلحمل. برای دستیابی به این درجه از مقیاسپذیری، جمینی در سه حجم یا سایز مختلف عرضه میشود:
جمینی نانو(Nano)، جمینی پرو (Pro) و جمینی اولترا (Ultra).
جمینی نانو برای وظایفی که بهطور معمول با تلفن هوشمند و بهویژه با Google Pixel 8انجام میشوند طراحی شده است. طراحی آن بهگونهای است که بتواند وظایفی را که به پردازش هوش مصنوعی کارآمد نیاز دارند بدون اتصال به سرورهای خارجی روی تلفن همراه انجام دهد. برای مثال، در اپلیکیشنهای چت پاسخهایی را پیشنهاد میدهد یا متون را خلاصه میکند.
جمینی پرو نسخه چندمنظوره و حدفاصل دو نسخه دیگر است. جمینی روی مراکز داده گوگل اجرا میشود و هدف از طراحی آن پشتیبانی از بارد، تازهترین نسخه چت بات هوش مصنوعی این شرکت است. توان پاسخگویی سریع یکی از ویژگیهای آن است.
جمینی اولترا پیشرفتهترین، توانمندترین و کماِشکالترین آنها است. این نسخه هنوز در دسترسی وسیع قرار داده نشده است. جمینی اولترا بهمنظور انجام وظایف بسیار پیچیده طراحی شده و قرار است پس از پایان مرحله کنونی تست آن دسترس عموم قرار گیرد.
جمینی یکی از بزرگترین و پیشرفتهترین مدلهای هوش مصنوعی است که تاریخ دستاوردهای رایانهای و فناوری اینترنت تابهحال به خود دیده است.
اگر جمینی شباهتی به مدلهای جی پی تی شرکت Open AIداشته باشد، باید انتظار مدلی با شمار واژه بیشتر، سرعت بالاتر، ویژگیها و امکانات بیشتر و نسخههای پرقدرتتری از آن را داشتهباشیم.