Skip to content

৯ই মে, ২০২৪ খ্রিষ্টাব্দ | বৃহস্পতিবার | ২৬শে বৈশাখ, ১৪৩১ বঙ্গাব্দ

কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্পের উদ্ভব হলো যেভাবে

পৃথিবী তার ৪৫০ কোটি বছরের ইতিহাসে বহু উত্থান-পতনের পর্যায় পার করে এসেছে। প্রাগৈতিহাসিক-কালের দানবীয় ডাইনোসর থেকে গুহাবাসী মানুষের শিকারপর্ব, সবকিছুরই জ্বলন্ত সাক্ষীই সে। মানবজাতি সংঘবদ্ধ হয়ে পৃথিবীর বিভিন্ন প্রান্তে সুসংগঠিত সভ্যতা গড়ে তুলে যখন লিপি আবিষ্কার করল, তখনই তারা প্রাগৈতিহাসিক যুগ থেকে লিখিত ইতিহাসের যুগে প্রবেশ করল। সে-ই থেকে শুরু ক্রমশ উত্তরোত্তর উন্নতি এবং বিকাশ লাভ, যার ফল হিসেবে আজকের আধুনিক প্রযুক্তির এই যুগ। আধুনিক প্রযুক্তির এই যুগের সর্বশেষ সংযোজন হলো আর্টিফিশিয়াল ইন্টেলিজেন্স বা কৃত্রিম বুদ্ধিমত্তা, যা ভবিষ্যতে নতুন এক যুগের সূচনা করতে যাচ্ছে। ইতোমধ্যে কৃত্রিম বুদ্ধিমত্তার জয়জয়কার দেখা যেতে শুরু করেছে। তাই অদূর ভবিষ্যতে মানুষের জায়গা যে যন্ত্র দখল করে নিতে যাচ্ছে, তা বলাই বাহুল্য। কৃত্রিম বুদ্ধিমত্তা যত প্রকার ভেল্কিবাজি দেখিয়ে মানুষকে বিস্ময়ে হতবাক করেছে, তার মধ্যে কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্প বা ‘AI Generated Art’ এর নাম উঠে আসবেই।


সম্প্রতি ‘কলোরাডো স্টেট ফেয়ার‘ নামে এক বার্ষিক চিত্রকর্ম প্রতিযোগিতায়, জ্যাসন এম. অ্যালেনের আঁকা ‘Théâtre D’opéra Spatial’ নামে একটি রঙিন চিত্র ডিজিটাল আর্টস ক্যাটাগরিতে প্রথম হয়। পেশায় জ্যাসন অ্যালেন হলেন একজন ভিডিয়ো গেম ডিজাইনার, যিনি পুরষ্কারস্বরূপ এর থেকে ৩০০ ডলার জিতে নিয়েছেন। কিন্তু মজার ব্যাপার হলো, এই চিত্রটি নির্মাণে তিনি কোনো ডিজিটাল ক্যামেরা বা কোনো ইমেজ ক্রিয়েশন সফটওয়্যারের সাহায্য নেননি। সেটি ছিল সম্পূর্ণ আর্টিফিশিয়াল ইন্টেলিজেন্স ব্যবহার করে বানানো এক পেইন্টিং। মূলত এই ঘটনার পর থেকেই ‘AI Generated Art/Painting’ নিয়ে সাধারণ মানুষের মাঝে ব্যাপক আগ্রহ এবং উদ্দীপনার সৃষ্টি হয়।

অতীতে কৃত্রিম বুদ্ধিমত্তার পরিধি গৎবাঁধা কিছু জিনিস, যেমন- দাবা খেলা, গাণিতিক সমস্যা সমাধানের মাঝে সীমাবদ্ধ থাকলেও, বর্তমানে কৃত্রিম বুদ্ধিমত্তার ব্যবহার এবং গবেষণা বহুলাংশে বৃদ্ধি পেয়েছে। স্বয়ংক্রিয়ভাবে গাড়ি চালনা থেকে শুরু করে, বিভিন্ন জটিল রোল নির্ণয়েও কৃত্রিম বুদ্ধিমত্তা মানুষকে দারুণ সাহায্য করছে। আর্টিফিশিয়াল ইন্টেলিজেন্সভিত্তিক ইমেজ তৈরির ক্ষেত্রে টেক্সট কমান্ড নেওয়া শব্দগুলোকে ইন্টারনেন্টে থাকা অনুরূপ বিকল্প ইমেজের সাথে মিলিয়ে কাছাকাছি ধাঁচের ইমেজগুলোকে বের করা হয়। তারপর সেগুলো থেকে কমান্ডে উল্লেখিত সাবজেক্ট এক্সট্রাক্টের একসাথে মার্জ করে প্রেজেন্ট করা হয়।

এবার আলোচনা করা যাক কৃত্রিম বুদ্ধিমত্তাভিত্তিক চিত্রশিল্পের অতীত নিয়ে। শুরুর দিকে আর্টিফিশিয়াল ইন্টেলিজেন্সের কার্যক্ষমতা ছিল সীমিত। এটা তখন শুধু এলোমেলো তথ্য থেকে (Unorganized Data) থেকে একটা প্যাটার্ন খুঁজে বের করে সেগুলোকে শ্রেণি অনুযায়ী সাজাতে পারত। ১৯৬৭ সালে জার্মান গণিতবিদ, বিজ্ঞানী ফ্রেইডার নেক সর্বপ্রথম কৃত্রিম বুদ্ধিমত্তার সাহায্যে ‘ম্যাট্রিক্স মাল্টিপ্লিকেশন’ নামে বারোটি ছবি তৈরিতে সক্ষম হন। তবে এগুলো ছিল বিভিন্ন জ্যামিতিক আকৃতি। কৃত্রিম বুদ্ধিমত্তা কাজে লাগিয়ে ছবি তৈরির বিষয়টিতে আংশিক সাফল্য আসে সত্তরের দশকে। সে সময় ‘Computer Aided Design (CAD)’ এর মাধ্যমে থ্রিডি শেপ তৈরি করা যেত।

ফ্রেইডার নেক ম্যাট্রিক্স মাল্টিপ্লিকেশন নামে ১২টি ইমেজ তৈরি করেন; Image Source: Tate.
‘AI Generated Art’ এর পথচলাকে আরও সামনে এগিয়ে নিতে ১৯৭৩ সালে ব্রিটিশ আর্টিস্ট হ্যারল্ড কোহেন ‘AARON‘ নামে একটি কম্পিউটার প্রোগ্রাম বা অ্যালগরিদম ডেভেলপ করেন। এই অ্যালগরিদম ব্যবহার হ্যান্ড ড্রয়িং করা যেত, যা ছিল সাধারণ এবড়োখেবড়ো প্যাটার্নের। সময়ের সাথে অ্যারনকে অধিক প্রোগ্রাম কনস্ট্রাকশন দেওয়ার মাধ্যমে আরও ডেভেলপ করা হয়, যাতে এটি আরও জটিল বস্তু আঁকতে পারে।

একবিংশ শতাব্দীর শুরুর দিকে মেশিন লার্নিংয়ের মাধ্যমে ইমেজ থেকে সাবজেক্ট এক্সট্রাক্ট করার মডিউল নিয়ে কাজ শুরু করেন বিশ্লেষকেরা। সেই প্রেক্ষিতে ২০১৪ সালের জুন মাসে ইয়ান গুডফেলো এবং তার সহকর্মীরা ‘Generative adversarial networks (GAN)’ নামে এক মেশিন লার্নিং ফ্রেমওয়ার্ক অবমুক্ত করেন। এই ফ্রেমওয়ার্ক দুটি নিউরাল নেটওয়ার্ককে প্রসেস করে ইমেজ এবং ভয়েজ জেনারেট করতে পারত। এছাড়াও ‘Variational autoencoder‘ এবং ‘Diffusion Model‘ নামে আরও দুটি ইমেজ প্রসেসিং সিস্টেম রয়েছে। ক্যাথরিন প্রোসন নামে একজন আর্টিস্ট ডিফিউশনাল মডেলের সহায়তায় ‘ক্লোজ টু টেক্সট’ ইমেজের লেয়ার ব্যবহার করে একটি পূর্ণাঙ্গ ইমেজ তৈরি করার পদ্ধতি ডেভেলপ করেন, যেখানে আর্ট স্টাইল এবং অন্যান্য ভেরিয়েবল উল্লেখ করা যেত।
এজন্য তিনি সাহায্য নিয়েছিলেন ‘Constrastive Language Image Pretraining’ বা ‘CLIP‘ এর, যার মাধ্যমে ইন্টারনেটে ছড়িয়ে-ছিটিয়ে থাকা লক্ষ লক্ষ ইমেজের অল্টারনেটিভ টেক্সট থেকে ডেটা নিয়ে ‘CLIP’ কে প্রশিক্ষণ দেওয়া হয়েছে। আর্টিফিশিয়াল ইন্টেলিজেন্সি নিয়ে ঘাঁটাঘাঁটি করা ডেভেলপাররা তখন ক্যাথরিনের কোডগুলোতে তাদের ইচ্ছানুযায়ী পরিবর্তন আনেন। পরে তা ‘CLIP’-এ সংযুক্ত করে বিভিন্ন নামে রিলিজ দেওয়া শুরু করেন। এসব দেখে হাত-পা গুটিয়ে বসে থাকেনি টেক জায়ান্ট গুগলও। গুগলের প্রকৌশলী অ্যালেক্সান্ডার মর্ডভিন্টসেভ ২০১৫ সালে কম্পিউটার ভিশন প্রোগ্রাম ‘Google DeepDream‘ রিলিজ করেন।
ডিপড্রিম নাম দেওয়ার কারণ হচ্ছে এর অ্যালগরিদম ব্যবহার করে স্বপ্নের মতো হ্যালোসিনোজেনিক ইমেজ তৈরি করা যেত। পরবর্তীতে ‘Neural Style Transfer’ নামে এক আর্টিফিশিয়াল ইন্টেলিজেন্সির উদ্ভব ঘটায় প্রকৌশলীরা, যা অনলাইনে জগতে বেশ সাড়া ফেলতে সক্ষম হয়। ২০১৯ সালে ‘this person doesn’t exist‘ নামে এক ওয়েবসাইট লঞ্চ করা হয়, যেখানে জেনারেটিভ অ্যাডাভার্সাল নেটওয়ার্ক এমন সব মানুষের মুখাবয়বয়ের ছবি তৈরি করত, বাস্তবে যাদের কোনো অস্তিত্ব নেই।

২০২১ সালের মে মাসে ‘GAN’-এর উন্নত সংস্করণ হিসেবে ডিফিউশন মডেলের ব্যবহার শুরু হয়। ডিফিউশন মডেলের সাথে GAN এর মূল পার্থক্য ছিল, এটা ‘GAN’ কমান্ডের সাথে শতভাগ সাদৃশ্যপূর্ণ ছবি তৈরি করতে না পারলেও, ডিফিউশন মডেলে কমান্ডে উল্লেখিত সাবজেক্টকে ধাপে ধাপে সেট করে ডিনয়েজিংয়ের মাধ্যমে একদম পরিষ্কার এবং বাস্তব ছবি তৈরি করতে পারত। ‘AI Generated ART’ এর জগতে বৈপ্লবিক পরিবর্তন আসে যখন ‘CLIP’ আর ডিফিউশন মডেলের মিশেলে ‘Open AI CLIP Diffusion’ রিলিজ দেওয়া হয়। সময়ের সাথে সাথে ‘CLIP Diffusion’ এর উন্নত সংস্করণ, যেমন – Disco Diffusion, Jax Diffusion, Latent Diffusion, Centipade Diffuision ইত্যাদি ডেভেলপ করেন প্রকৌশলীরা। এদের মধ্যে সবচেয়ে জনপ্রিয়তা কুড়িয়েছে Disco Diffusion, কারণ এই মডিউলে তৈরি আর্টের উপর ব্যবহারকারীর নিয়ন্ত্রণ থাকে সিংহভাগ। ব্যবহারকারীর কমান্ড অনুযায়ীই ইমেজ আউটপুট দেওয়া হয়। যেমন- আর্ট স্টাইল কেমন হবে, ছবির আয়তন কেমন হবে ইত্যাদি।

Jax diffusion জ্যামিতিক আকৃতিগুলোকে সহজেই ফুটিয়ে তুলতে পারে। Centipade Diffuision হলো Disco Diffusion এবং Latent Diffusion এর সমন্বয়, যা কৃত্রিম বুদ্ধিমত্তার ধারণাকে আরও পরিষ্কারভাবে তুলে ধরতে পারে। ‘Open AI’ ২০২১ সালের ৫ জানুয়ারি ‘DALL·E’ লঞ্চ করে যেখানে প্লেইন টেক্সট কমান্ডের উপর ভিত্তি করে আর্টিফিশিয়াল ইমেজ জেনারেট করা যেত। ‘Dall.E’ কতটা বাস্তবিক ছবি জেনারেট করতে পারছে সেটা থেকেও গুরুত্বপূর্ণ হলো, কৃত্রিম বুদ্ধিমত্তা কাজে লাগিয়ে সে টেক্সট কমান্ডগুলো কতটা নিখুঁতভাবে বুঝতে পারছে।

কিছুদিন আগে কল্পনার ছবিকে মিনিটের মধ্যে বাস্তবে রূপ দিয়ে জনপ্রিয়তা তুঙ্গে ছিল কৃত্রিম বুদ্ধিমত্তার বট ‘Midjourney AI‘, যা Discord সার্ভারে সবার জন্য মডিউল ওপেন করে দিয়েছিল। ওখানে প্রতিটি কমান্ডের জন্য ভিন্ন ভিন্ন সংস্করণের চারটি ইমেজ তৈরি হয়। ব্যবহারকারী তার পছন্দ অনুযায়ী সংস্করণ বেছে নিতে পারবে। এছাড়াও এতে ১৬৬৪ × ১৬৬৪ পিক্সেলের বড় একটি ইমেজের আউটপুট, ভেরিয়েন্ট তৈরি করা, লাইট আপস্কেল রেডোর মতো সুবিধা পাওয়া যেত। বিনামূল্যে একটি অ্যাকাউন্ট দিয়ে সর্বোচ্চ ২৫টি কমান্ড দেওয়া যায় এতে। বেসিক মেম্বারশিপ চার্জ প্রতিমাসে ১০ ডলার করে কাটে, যেখানে ইমেজ জেনারেট করা যাবে ৯০০টি। এছাড়াও স্ট্যান্ডার্ড মেম্বারশিপের জন্য পকেট থেকে প্রতিমাসে খরচ করতে হবে ৩০ ডলার, যেখানে ব্যবহারকারীরা আনলিমিটেড কাজ করতে পারবে। সর্বসাধারণের জন্য উন্মুক্ত এই প্লাটফর্ম যেকোনো অ্যাবিউসিভ, ভায়োলেন্ট কমান্ড রেস্ট্রিকটেড করে দেওয়ায়, এর দ্বারা নেতিবাচক প্রভাব ফেলা ডিস্টার্বিং কোনো ইমেজ তৈরি করা সম্ভব হচ্ছে না।
আর্টিফিশিয়াল ইন্টেলিজেন্স জেনারেটেড আর্ট আরও যে কারণে আলোচনা-সমালোচনার অঙ্গনে জায়গা করে নিয়েছে, তা হলো ডিপ ফেক ভিডিও। জনপ্রিয় হলিউড অভিনেতা টম ক্রুজ থেকে বারাক ওবামা, অনেকের চেহারা দিয়েই ডিপ ফেক ভিডিও বানানো হয়েছে। ভিডিওতে টম ক্রুজ টিকটকে কিংবা বিশ্বখ্যাত র‍্যাপার স্নুপ ডুগকে টেরট কার্ড রিডিংয়ে দেখা গেছে, যা বাস্তবে কখনোই ঘটেনি। যদিও এগুলো সাংঘর্ষিক কোনো বিতর্কের জন্ম দেয়নি।
তবে কৃত্রিম বুদ্ধিমত্তার বিশাল এই জগত ওপেন সোর্স হবার দরুন, কোডিং জ্ঞানসম্পন্ন যে-কেউ ইচ্ছামতো এর ডেটা ম্যানিপুলেশনের সক্ষমতা রাখে। সেজন্য বার বার আঙুল উঁচিয়ে এর দিকে অনুযোগের সুর তুলছে আর্টিফিশিয়াল ইন্টেলিজেন্স নিয়ে পেশাগতভাবে যুক্ত থাকা টেক কোম্পানিগুলো। এসব রিসোর্সকে নির্দিষ্ট একটা গণ্ডিতে আবদ্ধ করে রাখা ব্যবসায়ীক দিক থেকে কতখানি সম্ভব, তা এখনও তর্ক-সাপেক্ষ। ‘Open AI‘ এর দাবি, ‘DALL.E’ এবং ‘DALL.E – 2’ শুধুমাত্র গবেষণাভিত্তিক কাজের জন্য বানানো হয়েছে। বর্তমানে ‘DALL.E’ এর প্রবেশাধিকার শুধুমাত্র সীমিত কিছু ব্যবহারকারী, আর্টিস্ট, ডেভেলপার এবং গবেষকদের কাছেই রয়েছে। ‘Open AI’ এর এক চমৎকার দিক হলো, এই ইমেজ জেনারেটিং মডিউল সকল ধরনের ক্ষতিকর, অ্যাডাল্ট, উগ্র, হিংস্র কন্টেন্ট তৈরির পাশাপাশি তারকা, রাজনীতিবিদ, কিংবা খ্যাতিমান কোনো ব্যক্তির ছবির অসদ্ব্যবহার থেকে সর্বদা ব্যবহারকারীদের নিরুৎসাহিত করে আসছে।
যদিও ‘AI Generated Art Technology’ জগত এখনও সম্পূর্ণভাবে বিকশিত হয়নি, তবু এর মডিউলগুলো অসাধারণ সব ফলাফল দিতে শুরু করেছে। কৃত্রিম বুদ্ধিমত্তাভিত্তিক মডিউলগুলো মানুষকে ডিজিটাল আর্ট ক্রিয়েশন এবং ম্যানিপুলেশনে সাহায্য করছে। ফলে একজন শিল্পী তাদের সৃষ্টিশীলতা মেশিন লার্নিংয়ের সাথে মিশিয়ে আরও ভালো আউটপুট পাচ্ছে। এটা বাঁচিয়ে দিচ্ছে শিল্পীদের মূল্যবান সময়, কমিয়ে আনছে মানবিক ভুলের পরিমাণ। অ্যাডোবি স্যুইটের মতো সফটওয়্যারগুলো বেসিক লেভেলের আর্টিফিশিয়াল ইন্টেলিজেন্সি ব্যবহার করছে, যার মাধ্যমে অটো সাবজেক্ট ডিটেক্ট, ব্যাকগ্রাউন্ড রিমুভ করা, কালার কারেকশন, ইত্যাদি কাজ করা যাচ্ছে।
জ্যাসন এম. অ্যালেনের কলোরাডো স্টেট ফেয়ারের চিত্রটি সেরার পুরষ্কার বাগানোর পর অনেকেই নিন্দা ও সমালোচনার ঝড় তুলছেন। অনেকে মনে করেন, মেধা খাটানোর বিপরীতে এটা একপ্রকার চৌর্যবৃত্তি। আবার কিছু মানুষ বলেন, চিত্রটি কৃত্রিম বুদ্ধিমত্তার সাহায্য নিয়ে বানানো হলেও, আর্টের কনসেপ্টটি তো একজন মানুষ চিন্তা করে সেরকম কমান্ড দিয়েছে। তাই এটি বৈধ। তবে অনেকের কপালে চিন্তার ভাঁজ প্রগাঢ় হচ্ছে এই ভেবে, AI Generated Art অদূর ভবিষ্যতে চিত্রশিল্পীর সংখ্যা কমিয়ে দিতে পারে। এই শঙ্কা আদৌ সত্যি হবে কিনা, সেটা একমাত্র সময়ই বলে দেবে। তবে ভবিষ্যতের কৃত্রিম বুদ্ধিমত্তাভিত্তিক দুনিয়ার সাথে তাল মিলিয়ে চলতে হলে শিল্পীদের যত দ্রুত সম্ভব এসব আর্টিফিশিয়াল ইন্টেলিজেন্সিভিত্তিক অ্যালগরিদমের সাথে খাপ খাইয়ে নিতে হবে।

ডাউনলোড করুন অনন্যা অ্যাপ