কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্পের উদ্ভব হলো যেভাবে

মাইশা মুমতায প্রকাশ: ৯ ডিসেম্বর ২০২৩, ০২:৩২ পিএম

পৃথিবী তার ৪৫০ কোটি বছরের ইতিহাসে বহু উত্থান-পতনের পর্যায় পার করে এসেছে। প্রাগৈতিহাসিক-কালের দানবীয় ডাইনোসর থেকে গুহাবাসী মানুষের শিকারপর্ব, সবকিছুরই জ্বলন্ত সাক্ষীই সে। মানবজাতি সংঘবদ্ধ হয়ে পৃথিবীর বিভিন্ন প্রান্তে সুসংগঠিত সভ্যতা গড়ে তুলে যখন লিপি আবিষ্কার করল, তখনই তারা প্রাগৈতিহাসিক যুগ থেকে লিখিত ইতিহাসের যুগে প্রবেশ করল। সে-ই থেকে শুরু ক্রমশ উত্তরোত্তর উন্নতি এবং বিকাশ লাভ, যার ফল হিসেবে আজকের আধুনিক প্রযুক্তির এই যুগ। আধুনিক প্রযুক্তির এই যুগের সর্বশেষ সংযোজন হলো আর্টিফিশিয়াল ইন্টেলিজেন্স বা কৃত্রিম বুদ্ধিমত্তা, যা ভবিষ্যতে নতুন এক যুগের সূচনা করতে যাচ্ছে। ইতোমধ্যে কৃত্রিম বুদ্ধিমত্তার জয়জয়কার দেখা যেতে শুরু করেছে। তাই অদূর ভবিষ্যতে মানুষের জায়গা যে যন্ত্র দখল করে নিতে যাচ্ছে, তা বলাই বাহুল্য। কৃত্রিম বুদ্ধিমত্তা যত প্রকার ভেল্কিবাজি দেখিয়ে মানুষকে বিস্ময়ে হতবাক করেছে, তার মধ্যে কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্প বা ‘AI Generated Art’ এর নাম উঠে আসবেই।

সম্প্রতি ‘কলোরাডো স্টেট ফেয়ার‘ নামে এক বার্ষিক চিত্রকর্ম প্রতিযোগিতায়, জ্যাসন এম. অ্যালেনের আঁকা ‘Théâtre D’opéra Spatial’ নামে একটি রঙিন চিত্র ডিজিটাল আর্টস ক্যাটাগরিতে প্রথম হয়। পেশায় জ্যাসন অ্যালেন হলেন একজন ভিডিয়ো গেম ডিজাইনার, যিনি পুরষ্কারস্বরূপ এর থেকে ৩০০ ডলার জিতে নিয়েছেন। কিন্তু মজার ব্যাপার হলো, এই চিত্রটি নির্মাণে তিনি কোনো ডিজিটাল ক্যামেরা বা কোনো ইমেজ ক্রিয়েশন সফটওয়্যারের সাহায্য নেননি। সেটি ছিল সম্পূর্ণ আর্টিফিশিয়াল ইন্টেলিজেন্স ব্যবহার করে বানানো এক পেইন্টিং। মূলত এই ঘটনার পর থেকেই ‘AI Generated Art/Painting’ নিয়ে সাধারণ মানুষের মাঝে ব্যাপক আগ্রহ এবং উদ্দীপনার সৃষ্টি হয়।

অতীতে কৃত্রিম বুদ্ধিমত্তার পরিধি গৎবাঁধা কিছু জিনিস, যেমন- দাবা খেলা, গাণিতিক সমস্যা সমাধানের মাঝে সীমাবদ্ধ থাকলেও, বর্তমানে কৃত্রিম বুদ্ধিমত্তার ব্যবহার এবং গবেষণা বহুলাংশে বৃদ্ধি পেয়েছে। স্বয়ংক্রিয়ভাবে গাড়ি চালনা থেকে শুরু করে, বিভিন্ন জটিল রোল নির্ণয়েও কৃত্রিম বুদ্ধিমত্তা মানুষকে দারুণ সাহায্য করছে। আর্টিফিশিয়াল ইন্টেলিজেন্সভিত্তিক ইমেজ তৈরির ক্ষেত্রে টেক্সট কমান্ড নেওয়া শব্দগুলোকে ইন্টারনেন্টে থাকা অনুরূপ বিকল্প ইমেজের সাথে মিলিয়ে কাছাকাছি ধাঁচের ইমেজগুলোকে বের করা হয়। তারপর সেগুলো থেকে কমান্ডে উল্লেখিত সাবজেক্ট এক্সট্রাক্টের একসাথে মার্জ করে প্রেজেন্ট করা হয়।

এবার আলোচনা করা যাক কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্পের অতীত নিয়ে। শুরুর দিকে আর্টিফিশিয়াল ইন্টেলিজেন্সের কার্যক্ষমতা ছিল সীমিত। এটা তখন শুধু এলোমেলো তথ্য থেকে (Unorganized Data) থেকে একটা প্যাটার্ন খুঁজে বের করে সেগুলোকে শ্রেণি অনুযায়ী সাজাতে পারত। ১৯৬৭ সালে জার্মান গণিতবিদ, বিজ্ঞানী ফ্রেইডার নেক সর্বপ্রথম কৃত্রিম বুদ্ধিমত্তার সাহায্যে ‘ম্যাট্রিক্স মাল্টিপ্লিকেশন’ নামে বারোটি ছবি তৈরিতে সক্ষম হন। তবে এগুলো ছিল বিভিন্ন জ্যামিতিক আকৃতি। কৃত্রিম বুদ্ধিমত্তা কাজে লাগিয়ে ছবি তৈরির বিষয়টিতে আংশিক সাফল্য আসে সত্তরের দশকে। সে সময় ‘Computer Aided Design (CAD)’ এর মাধ্যমে থ্রিডি শেপ তৈরি করা যেত।

ফ্রেইডার নেক ম্যাট্রিক্স মাল্টিপ্লিকেশন নামে ১২টি ইমেজ তৈরি করেন; Image Source: Tate.
‘AI Generated Art’ এর পথচলাকে আরও সামনে এগিয়ে নিতে ১৯৭৩ সালে ব্রিটিশ আর্টিস্ট হ্যারল্ড কোহেন ‘AARON‘ নামে একটি কম্পিউটার প্রোগ্রাম বা অ্যালগরিদম ডেভেলপ করেন। এই অ্যালগরিদম ব্যবহার হ্যান্ড ড্রয়িং করা যেত, যা ছিল সাধারণ এবড়োখেবড়ো প্যাটার্নের। সময়ের সাথে অ্যারনকে অধিক প্রোগ্রাম কনস্ট্রাকশন দেওয়ার মাধ্যমে আরও ডেভেলপ করা হয়, যাতে এটি আরও জটিল বস্তু আঁকতে পারে।

একবিংশ শতাব্দীর শুরুর দিকে মেশিন লার্নিংয়ের মাধ্যমে ইমেজ থেকে সাবজেক্ট এক্সট্রাক্ট করার মডিউল নিয়ে কাজ শুরু করেন বিশ্লেষকেরা। সেই প্রেক্ষিতে ২০১৪ সালের জুন মাসে ইয়ান গুডফেলো এবং তার সহকর্মীরা ‘Generative adversarial networks (GAN)’ নামে এক মেশিন লার্নিং ফ্রেমওয়ার্ক অবমুক্ত করেন। এই ফ্রেমওয়ার্ক দুটি নিউরাল নেটওয়ার্ককে প্রসেস করে ইমেজ এবং ভয়েজ জেনারেট করতে পারত। এছাড়াও ‘Variational autoencoder‘ এবং ‘Diffusion Model‘ নামে আরও দুটি ইমেজ প্রসেসিং সিস্টেম রয়েছে। ক্যাথরিন প্রোসন নামে একজন আর্টিস্ট ডিফিউশনাল মডেলের সহায়তায় ‘ক্লোজ টু টেক্সট’ ইমেজের লেয়ার ব্যবহার করে একটি পূর্ণাঙ্গ ইমেজ তৈরি করার পদ্ধতি ডেভেলপ করেন, যেখানে আর্ট স্টাইল এবং অন্যান্য ভেরিয়েবল উল্লেখ করা যেত।
এজন্য তিনি সাহায্য নিয়েছিলেন ‘Constrastive Language Image Pretraining’ বা ‘CLIP‘ এর, যার মাধ্যমে ইন্টারনেটে ছড়িয়ে-ছিটিয়ে থাকা লক্ষ লক্ষ ইমেজের অল্টারনেটিভ টেক্সট থেকে ডেটা নিয়ে ‘CLIP’ কে প্রশিক্ষণ দেওয়া হয়েছে। আর্টিফিশিয়াল ইন্টেলিজেন্সি নিয়ে ঘাঁটাঘাঁটি করা ডেভেলপাররা তখন ক্যাথরিনের কোডগুলোতে তাদের ইচ্ছানুযায়ী পরিবর্তন আনেন। পরে তা ‘CLIP’-এ সংযুক্ত করে বিভিন্ন নামে রিলিজ দেওয়া শুরু করেন। এসব দেখে হাত-পা গুটিয়ে বসে থাকেনি টেক জায়ান্ট গুগলও। গুগলের প্রকৌশলী অ্যালেক্সান্ডার মর্ডভিন্টসেভ ২০১৫ সালে কম্পিউটার ভিশন প্রোগ্রাম ‘Google DeepDream‘ রিলিজ করেন।
ডিপড্রিম নাম দেওয়ার কারণ হচ্ছে এর অ্যালগরিদম ব্যবহার করে স্বপ্নের মতো হ্যালোসিনোজেনিক ইমেজ তৈরি করা যেত। পরবর্তীতে ‘Neural Style Transfer’ নামে এক আর্টিফিশিয়াল ইন্টেলিজেন্সির উদ্ভব ঘটায় প্রকৌশলীরা, যা অনলাইনে জগতে বেশ সাড়া ফেলতে সক্ষম হয়। ২০১৯ সালে ‘this person doesn’t exist‘ নামে এক ওয়েবসাইট লঞ্চ করা হয়, যেখানে জেনারেটিভ অ্যাডাভার্সাল নেটওয়ার্ক এমন সব মানুষের মুখাবয়বয়ের ছবি তৈরি করত, বাস্তবে যাদের কোনো অস্তিত্ব নেই।

২০২১ সালের মে মাসে ‘GAN’-এর উন্নত সংস্করণ হিসেবে ডিফিউশন মডেলের ব্যবহার শুরু হয়। ডিফিউশন মডেলের সাথে GAN এর মূল পার্থক্য ছিল, এটা ‘GAN’ কমান্ডের সাথে শতভাগ সাদৃশ্যপূর্ণ ছবি তৈরি করতে না পারলেও, ডিফিউশন মডেলে কমান্ডে উল্লেখিত সাবজেক্টকে ধাপে ধাপে সেট করে ডিনয়েজিংয়ের মাধ্যমে একদম পরিষ্কার এবং বাস্তব ছবি তৈরি করতে পারত। ‘AI Generated ART’ এর জগতে বৈপ্লবিক পরিবর্তন আসে যখন ‘CLIP’ আর ডিফিউশন মডেলের মিশেলে ‘Open AI CLIP Diffusion’ রিলিজ দেওয়া হয়। সময়ের সাথে সাথে ‘CLIP Diffusion’ এর উন্নত সংস্করণ, যেমন – Disco Diffusion, Jax Diffusion, Latent Diffusion, Centipade Diffuision ইত্যাদি ডেভেলপ করেন প্রকৌশলীরা। এদের মধ্যে সবচেয়ে জনপ্রিয়তা কুড়িয়েছে Disco Diffusion, কারণ এই মডিউলে তৈরি আর্টের উপর ব্যবহারকারীর নিয়ন্ত্রণ থাকে সিংহভাগ। ব্যবহারকারীর কমান্ড অনুযায়ীই ইমেজ আউটপুট দেওয়া হয়। যেমন- আর্ট স্টাইল কেমন হবে, ছবির আয়তন কেমন হবে ইত্যাদি।

Jax diffusion জ্যামিতিক আকৃতিগুলোকে সহজেই ফুটিয়ে তুলতে পারে। Centipade Diffuision হলো Disco Diffusion এবং Latent Diffusion এর সমন্বয়, যা কৃত্রিম বুদ্ধিমত্তার ধারণাকে আরও পরিষ্কারভাবে তুলে ধরতে পারে। ‘Open AI’ ২০২১ সালের ৫ জানুয়ারি ‘DALL·E’ লঞ্চ করে যেখানে প্লেইন টেক্সট কমান্ডের উপর ভিত্তি করে আর্টিফিশিয়াল ইমেজ জেনারেট করা যেত। ‘Dall.E’ কতটা বাস্তবিক ছবি জেনারেট করতে পারছে সেটা থেকেও গুরুত্বপূর্ণ হলো, কৃত্রিম বুদ্ধিমত্তা কাজে লাগিয়ে সে টেক্সট কমান্ডগুলো কতটা নিখুঁতভাবে বুঝতে পারছে।

কিছুদিন আগে কল্পনার ছবিকে মিনিটের মধ্যে বাস্তবে রূপ দিয়ে জনপ্রিয়তা তুঙ্গে ছিল কৃত্রিম বুদ্ধিমত্তার বট ‘Midjourney AI‘, যা Discord সার্ভারে সবার জন্য মডিউল ওপেন করে দিয়েছিল। ওখানে প্রতিটি কমান্ডের জন্য ভিন্ন ভিন্ন সংস্করণের চারটি ইমেজ তৈরি হয়। ব্যবহারকারী তার পছন্দ অনুযায়ী সংস্করণ বেছে নিতে পারবে। এছাড়াও এতে ১৬৬৪ × ১৬৬৪ পিক্সেলের বড় একটি ইমেজের আউটপুট, ভেরিয়েন্ট তৈরি করা, লাইট আপস্কেল রেডোর মতো সুবিধা পাওয়া যেত। বিনামূল্যে একটি অ্যাকাউন্ট দিয়ে সর্বোচ্চ ২৫টি কমান্ড দেওয়া যায় এতে। বেসিক মেম্বারশিপ চার্জ প্রতিমাসে ১০ ডলার করে কাটে, যেখানে ইমেজ জেনারেট করা যাবে ৯০০টি। এছাড়াও স্ট্যান্ডার্ড মেম্বারশিপের জন্য পকেট থেকে প্রতিমাসে খরচ করতে হবে ৩০ ডলার, যেখানে ব্যবহারকারীরা আনলিমিটেড কাজ করতে পারবে। সর্বসাধারণের জন্য উন্মুক্ত এই প্লাটফর্ম যেকোনো অ্যাবিউসিভ, ভায়োলেন্ট কমান্ড রেস্ট্রিকটেড করে দেওয়ায়, এর দ্বারা নেতিবাচক প্রভাব ফেলা ডিস্টার্বিং কোনো ইমেজ তৈরি করা সম্ভব হচ্ছে না।
আর্টিফিশিয়াল ইন্টেলিজেন্স জেনারেটেড আর্ট আরও যে কারণে আলোচনা-সমালোচনার অঙ্গনে জায়গা করে নিয়েছে, তা হলো ডিপ ফেক ভিডিও। জনপ্রিয় হলিউড অভিনেতা টম ক্রুজ থেকে বারাক ওবামা, অনেকের চেহারা দিয়েই ডিপ ফেক ভিডিও বানানো হয়েছে। ভিডিওতে টম ক্রুজ টিকটকে কিংবা বিশ্বখ্যাত র‍্যাপার স্নুপ ডুগকে টেরট কার্ড রিডিংয়ে দেখা গেছে, যা বাস্তবে কখনোই ঘটেনি। যদিও এগুলো সাংঘর্ষিক কোনো বিতর্কের জন্ম দেয়নি।
তবে কৃত্রিম বুদ্ধিমত্তার বিশাল এই জগত ওপেন সোর্স হবার দরুন, কোডিং জ্ঞানসম্পন্ন যে-কেউ ইচ্ছামতো এর ডেটা ম্যানিপুলেশনের সক্ষমতা রাখে। সেজন্য বার বার আঙুল উঁচিয়ে এর দিকে অনুযোগের সুর তুলছে আর্টিফিশিয়াল ইন্টেলিজেন্স নিয়ে পেশাগতভাবে যুক্ত থাকা টেক কোম্পানিগুলো। এসব রিসোর্সকে নির্দিষ্ট একটা গণ্ডিতে আবদ্ধ করে রাখা ব্যবসায়ীক দিক থেকে কতখানি সম্ভব, তা এখনও তর্ক-সাপেক্ষ। ‘Open AI‘ এর দাবি, ‘DALL.E’ এবং ‘DALL.E – 2’ শুধুমাত্র গবেষণাভিত্তিক কাজের জন্য বানানো হয়েছে। বর্তমানে ‘DALL.E’ এর প্রবেশাধিকার শুধুমাত্র সীমিত কিছু ব্যবহারকারী, আর্টিস্ট, ডেভেলপার এবং গবেষকদের কাছেই রয়েছে। ‘Open AI’ এর এক চমৎকার দিক হলো, এই ইমেজ জেনারেটিং মডিউল সকল ধরনের ক্ষতিকর, অ্যাডাল্ট, উগ্র, হিংস্র কন্টেন্ট তৈরির পাশাপাশি তারকা, রাজনীতিবিদ, কিংবা খ্যাতিমান কোনো ব্যক্তির ছবির অসদ্ব্যবহার থেকে সর্বদা ব্যবহারকারীদের নিরুৎসাহিত করে আসছে।
যদিও ‘AI Generated Art Technology’ জগত এখনও সম্পূর্ণভাবে বিকশিত হয়নি, তবু এর মডিউলগুলো অসাধারণ সব ফলাফল দিতে শুরু করেছে। কৃত্রিম বুদ্ধিমত্তাভিত্তিক মডিউলগুলো মানুষকে ডিজিটাল আর্ট ক্রিয়েশন এবং ম্যানিপুলেশনে সাহায্য করছে। ফলে একজন শিল্পী তাদের সৃষ্টিশীলতা মেশিন লার্নিংয়ের সাথে মিশিয়ে আরও ভালো আউটপুট পাচ্ছে। এটা বাঁচিয়ে দিচ্ছে শিল্পীদের মূল্যবান সময়, কমিয়ে আনছে মানবিক ভুলের পরিমাণ। অ্যাডোবি স্যুইটের মতো সফটওয়্যারগুলো বেসিক লেভেলের আর্টিফিশিয়াল ইন্টেলিজেন্সি ব্যবহার করছে, যার মাধ্যমে অটো সাবজেক্ট ডিটেক্ট, ব্যাকগ্রাউন্ড রিমুভ করা, কালার কারেকশন, ইত্যাদি কাজ করা যাচ্ছে।
জ্যাসন এম. অ্যালেনের কলোরাডো স্টেট ফেয়ারের চিত্রটি সেরার পুরষ্কার বাগানোর পর অনেকেই নিন্দা ও সমালোচনার ঝড় তুলছেন। অনেকে মনে করেন, মেধা খাটানোর বিপরীতে এটা একপ্রকার চৌর্যবৃত্তি। আবার কিছু মানুষ বলেন, চিত্রটি কৃত্রিম বুদ্ধিমত্তার সাহায্য নিয়ে বানানো হলেও, আর্টের কনসেপ্টটি তো একজন মানুষ চিন্তা করে সেরকম কমান্ড দিয়েছে। তাই এটি বৈধ। তবে অনেকের কপালে চিন্তার ভাঁজ প্রগাঢ় হচ্ছে এই ভেবে, AI Generated Art অদূর ভবিষ্যতে চিত্রশিল্পীর সংখ্যা কমিয়ে দিতে পারে। এই শঙ্কা আদৌ সত্যি হবে কিনা, সেটা একমাত্র সময়ই বলে দেবে। তবে ভবিষ্যতের কৃত্রিম বুদ্ধিমত্তাভিত্তিক দুনিয়ার সাথে তাল মিলিয়ে চলতে হলে শিল্পীদের যত দ্রুত সম্ভব এসব আর্টিফিশিয়াল ইন্টেলিজেন্সিভিত্তিক অ্যালগরিদমের সাথে খাপ খাইয়ে নিতে হবে।