அறிமுகம்
இன்றைய டிஜிட்டல் யுகத்தில், பெரிய மொழி மாதிரிகள் (LLMs) என்பதை அடிப்படையாகக் கொண்ட தானியங்கி குறியீட்டாக்கம் பரவலாக வளர்ந்து வருகிறது. ChatGPT போன்ற AI கருவிகள் குறைவான நேரத்தில் குறியீட்டை உருவாக்குவதால், மென்பொருள் உருவாக்கம் மிக வேகமாக நடை பெறுகிறது. எனினும், இத்தகைய தொழில்நுட்பங்கள் பாதுகாப்பு குறைபாடுகளை ஏற்படுத்தும் வாய்ப்பு இருப்பதைக் கணக்கில் எடுத்துக்கொண்டு, டெக்சாஸ் பல்கலைக்கழகத்தின் (UTSA) ஆய்வாளர்கள் தீவிரமாக ஆய்வு மேற்கொண்டுள்ளனர்.
பெரிய மொழி மாதிரிகள் (LLMs) மற்றும் மென்பொருள் வளர்ச்சியில் அவற்றின் பங்கு
LLMs எனப்படும் AI மாதிரிகள், இயற்கை மொழியை புரிந்து கொண்டு அதில் இருந்து செயற்கை அறிவுடன் பதில்களை உருவாக்குகின்றன. இன்று உலகளவில் 30% வரை குறியீடு இந்த மாதிரிகள் மூலமாகவே உருவாக்கப்படுகிறது. பைதான், ஜாவாஸ்கிரிப்ட் போன்ற மொழிகளில் குறியீடு எழுதும் போது, இந்த மாதிரிகள், தேவையான தொகுப்புகளை பரிந்துரைக்கின்றன.
தொகுப்பு மாயத்தோற்றங்கள் (Package Hallucinations) என்றால் என்ன?
LLMs வழங்கும் பரிந்துரைகள் சில நேரங்களில் உண்மையான தொகுப்புகளாக இருக்காமல், அதிர்ச்சி தரும் வகையில் இல்லாத தொகுப்புகள் அல்லது மாயத்தோற்ற தொகுப்புகள் ஆக இருக்க முடியும். இது என்னவென்றால், AI ஒரு மூன்றாம் தரப்பு மென்பொருள் தொகுப்பை பரிந்துரை செய்துவிட்டு, அந்த தொகுப்பு உண்மையில் இணையத்தில் இல்லாததாக இருக்கலாம்.
இந்த சூழ்நிலையில், ஒரு தீய நோக்கமுள்ள நபர் இதே பெயருடன் ஒரு புதிய தொகுப்பை உருவாக்கி அதில் தீங்கிழைக்கும் குறியீட்டை (malware) ஏற்றலாம். பயனர் அந்த தொகுப்பை நம்பி பயன்படுத்தும் போது, அவரது கணினி பாதிக்கப்படும்.
UTSA ஆய்வின் முக்கியமான கண்டுபிடிப்புகள்
UTSA ஆராய்ச்சியாளர்கள் – முனைவர் ஜோ ஸ்ப்ராக்லென் தலைமையில் – பைதான் மற்றும் ஜாவாஸ்கிரிப்ட் குறியீட்டுகளில் LLMs உருவாக்கும் மாயத்தோற்றங்களை ஆய்வு செய்தனர். 2.23 மில்லியன் குறியீடு மாதிரிகளில், 440,445 மாயத்தோற்ற தொகுப்புகள் பரிந்துரைக்கப்பட்டதை அவர்கள் கண்டுபிடித்தனர். அதாவது, 20%க்கு மேல் கோடுகள் இந்த அபாயத்தை தாங்கிக் கொண்டிருந்தன.
GPT மாதிரிகள் போன்ற மூடப்பட்ட AI மாதிரிகள், திறந்த மூல (Open Source) மாதிரிகளை விட நான்கு மடங்கு பாதுகாப்பாக இருந்தன. குறிப்பாக பைதான் குறியீட்டில், ஜாவாஸ்கிரிப்ட் குறித்தும் விடியோ மேல் பாதுகாப்பு இருந்தது.
ஏன் இது ஒரு பெரிய பாதுகாப்பு சவால்?
இந்த தாக்குதல் முறையை “தொகுப்பு குழப்பமான தாக்குதல் (Package Confusion Attack)” என அழைக்கிறார்கள். இங்கே, ஒரு குறியீட்டில் பரிந்துரைக்கப்படும் தொகுப்பு உண்மையில் இல்லாத ஒன்றாக இருக்கலாம். அந்த இடத்தை ஒரு எதிரி கையாளும் போது, பயனர் தாக்குதலுக்குள்ளாகி விடுகிறார்.
அறிவற்ற நம்பிக்கையை அடிப்படையாகக் கொண்ட இந்த தாக்குதல், LLMs மீது வைக்கப்படும் நம்பிக்கையைப் பயன்படுத்துகிறது. பயனர்கள், AI உருவாக்கிய குறியீடு முறையாகவே இருக்கும் என நம்புகிறார்கள். ஆனால் உண்மையில், இந்த குறியீடு இவர்களது கணினியைத் திறக்க உதவக்கூடியதாக இருக்கலாம்.
பாதுகாப்பு மேம்படுத்துவதற்கான பரிந்துரைகள்
- குறியீட்டை சுயமாக சரிபார்த்தல்: AI பரிந்துரைக்கும் எந்த தொகுப்பையும் நேரடியாக இயக்குவதற்கு முன், அதன் ஆதாரங்களை சரிபார்க்க வேண்டும்.
- தொகுப்பு களஞ்சியங்கள் மேம்பாடு: PYPI, NPM போன்ற களஞ்சியங்கள் மீது பார்வை வைக்கப்பட வேண்டும். அந்த தொகுப்புகள் முறையாக பரிசோதிக்கப்பட வேண்டியது அவசியம்.
- மாஸ்டர் பட்டியலுடன் ஒப்பிடுதல்: AI உருவாக்கும் தொகுப்புகள் முன்னதாக ஒப்புக்கொள்ளப்பட்ட பட்டியலுடன் ஒப்பிடப்பட்டால், மாயத்தோற்றங்களை தடுக்கும் வாய்ப்பு அதிகமாகும்.
- AI வழங்குநர்கள் பொறுப்பேற்க வேண்டும்: OpenAI, Meta போன்ற நிறுவனங்கள், தாங்கள் வழங்கும் மாதிரிகளை பாதுகாப்பானவையாக நிரூபிக்க நடவடிக்கை எடுக்க வேண்டும்.
முடிவுரை
தானியங்கி குறியீட்டாக்கம், மென்பொருள் துறையில் பெரிய புரட்சியை ஏற்படுத்தியுள்ளது. ஆனால், பாதுகாப்பு என்பது எப்போதும் முதன்மையாகவே இருக்க வேண்டும். UTSA ஆய்வாளர்கள் கண்டுபிடித்த தொகுப்பு மாயத்தோற்றங்கள் போன்ற பாதுகாப்பு குறைபாடுகள், எதிர்காலத்தில் அதிகம் பேசப்படும் விஷயமாக மாறும்.
AI உதவியால் குறியீடு எழுதும் முன், நாம் அதை நம்பவோ பயன்படுத்தவோ முனைந்தால், அதன் பாதுகாப்பு மற்றும் நம்பகத்தன்மை பற்றி ஆய்வுசெய்ய வேண்டியது கட்டாயமாகிறது. “எதிரி இல்லாத இடத்தில்கூட பாதுகாப்பு ஒரு தேவை” என்பது இப்போது மிகவும் பொருந்தும்.
அறிவுப்பூர்வமாக இருங்கள். பாதுகாப்பாக செயல்படுங்கள்.