მონაცემთა გამოყენება AI-ს სწავლებისთვის

კანონიერია თუ არა Web Scraping?

ზოგადად აკრძალული არ არის, მაგრამ დამოკიდებულია ვებგვერდის წესებზე (Terms of Use) და შეგროვებული მონაცემების ტიპზე (პერსონალური vs საჯარო). ხშირად ეს სარისკოა.

შემიძლია თუ არა ვიყიდო მონაცემები?

დიახ, არსებობენ მონაცემთა ბროკერები, მაგრამ აუცილებელია შეამოწმოთ, რამდენად კანონიერად მოიპოვეს მათ ეს მონაცემები ("ჯაჭვის სისუფთავე").

რა არის Model Disgorgement?

ეს არის სანქცია, როდესაც სასამართლო ავალდებულებს კომპანიას, წაშალოს არა მხოლოდ უკანონო მონაცემები, არამედ მათზე ნასწავლი ალგორითმიც.

ეხება თუ არა საავტორო უფლება მონაცემთა ბაზას?

დიახ, მონაცემთა ბაზა დაცულია საავტორო უფლებით, თუ მისი შედგენა მოითხოვდა ინტელექტუალურ ძალისხმევას (შერჩევა, განლაგება).

წაკითხვის დრო

2 წთ

გამოქვეყნდა

...

მონაცემთა გამოყენება ხელოვნური ინტელექტის სწავლებისთვის (Training Data Rights) არის საკვანძო იურიდიული საკითხი AI დეველოპერებისთვის. AI მოდელის ხარისხი დამოკიდებულია მონაცემებზე, რომლებზეც ის სწავლობს (Training Data). ხშირად კომპანიები იყენებენ "Web Scraping"-ს (ინტერნეტიდან მონაცემების ავტომატურ შეგროვებას) მონაცემთა ბაზების შესავსებად. ეს პრაქტიკა შეიცავს უზარმაზარ სამართლებრივ რისკებს: საავტორო უფლებების დარღვევას (თუ მონაცემები დაცულია), საიტის გამოყენების წესების დარღვევას და პერსონალური მონაცემების უკანონო დამუშავებას. თუ სასამართლო დაადგენს, რომ მოდელი ნასწავლია "მოპარულ" მონაცემებზე, კომპანიას შეიძლება დაეკისროს მოდელის განადგურების ვალდებულება (Model Disgorgement), რაც მილიონობით დოლარის ზარალს ნიშნავს.

ჩვენი მომსახურება მიზნად ისახავს მონაცემთა მოპოვების პროცესის ლეგალიზაციას. სერვისი მოიცავს:

  • მონაცემთა წყაროების აუდიტი: გამოყენებული მონაცემთა ბაზების (Datasets) შემოწმება საავტორო უფლებებზე და ლიცენზიებზე (მაგ., Creative Commons, Public Domain).
  • ლიცენზირების ხელშეკრულებები: მონაცემთა პროვაიდერებთან კონტრაქტების გაფორმება მონაცემების კომერციული მიზნით გამოყენებისთვის.
  • Web Scraping-ის სამართლებრივი ანალიზი: კონკრეტული ვებგვერდების Terms of Service-ის შემოწმება და რისკების შეფასება მონაცემთა ავტომატური მოპოვებისას.
  • სინთეზური მონაცემები (Synthetic Data): ალტერნატიული, ხელოვნურად გენერირებული მონაცემების გამოყენების სამართლებრივი ასპექტები.
  • TDM (Text and Data Mining) გამონაკლისები: საავტორო უფლებების კანონმდებლობაში არსებული გამონაკლისების გამოყენება კვლევითი და კომერციული მიზნებისთვის.

განვიხილოთ პრაქტიკული მაგალითები. სტარტაპი ავითარებს AI-ს მუსიკის შესაქმნელად და ასწავლის მოდელს YouTube-დან გადმოწერილ სიმღერებზე. ეს არის საავტორო უფლებების მასობრივი დარღვევა. ლეგალური გზა არის ლიცენზიის ყიდვა ან საჯარო დომენში არსებული მუსიკის გამოყენება. მეორე მაგალითი: კომპანია აგროვებს LinkedIn-ის პროფილებს HR ალგორითმისთვის. ეს არღვევს LinkedIn-ის წესებს და პერსონალურ მონაცემთა კანონს. მესამე შემთხვევა: მკვლევარი იყენებს სამეცნიერო სტატიებს მოდელის საწვრთნელად. საქართველოს კანონმდებლობით, ეს შეიძლება დაშვებული იყოს პირადი მიზნებისთვის, მაგრამ კომერციალიზაციის შემთხვევაში საჭიროა ნებართვა.

საქართველოში ამ სფეროს არეგულირებს კანონი საავტორო და მომიჯნავე უფლებების შესახებ და სამოქალაქო კოდექსი. ევროკავშირში მოქმედებს DSM დირექტივა, რომელიც არეგულირებს TDM-ს (ტექსტისა და მონაცემების მაინინგს). საქართველოც მიდის ამ სტანდარტებისკენ. მთავარი პრინციპია: ინტერნეტში საჯაროდ ხელმისაწვდომი ინფორმაცია არ ნიშნავს, რომ მისი გამოყენება ნებისმიერი მიზნით თავისუფალია.

სპეციალისტები ქმნიან "მონაცემთა მოპოვების პროტოკოლს". ეს დოკუმენტი განსაზღვრავს, რომელი წყაროებია უსაფრთხო, როგორ უნდა შეინახოს მონაცემები და როგორ უნდა მოხდეს მათი "გასუფთავება" პერსონალური ინფორმაციისგან. ეს პროტოკოლი არის კომპანიის დამცავი ფარი სასამართლო დავების დროს.

Legal.ge გაძლევთ წვდომას IP იურისტებზე, რომლებსაც ესმით მონაცემთა ეკონომიკა. სუფთა მონაცემები ნიშნავს სუფთა ბიზნესს. დაიცავით თქვენი AI მოდელი იურიდიული რისკებისგან Legal.ge-სთან ერთად.

განახლდა: ...

სპეციალისტები სერვისისთვის

იტვირთება...